Door JS Webdesign In Globale Configuratie 2 weergaves
Over Robots
Webrobots, ook bekend als crawlers, webzwervers of spiders, zijn programma's die automatisch het web doorzoeken. Ze worden onder andere gebruikt door zoekmachines om webinhoud te indexeren.
Het robots.txt-bestand implementeert het Robots Exclusion Protocol, waarmee een websitebeheerder kan bepalen welke delen van de site niet mogen worden geïnspecteerd door specifieke robotgebruikersagenten. Toegang tot de inhoud van openbare pagina's is bijvoorbeeld normaal toegestaan, maar toegang tot cgi, privé en tijdelijke mappen waarvan de pagina's niet moeten worden geïndexeerd, wordt vaak geweigerd.
Waar de robots.txt File te Plaatsen
Een standaard robots.txt file is inbegrepen in de Joomla-root. De robots.txt file moet in de hoofdmap van het domein of subdomein staan en moet robots.txt genoemd worden.
Een robots.txt bestand dat zich in een subdirectory bevindt, is niet geldig. Robots controleren dit bestand alleen in de root van het domein. Als de Joomla-website is geïnstalleerd binnen een subdirectory zoals example.com/joomla/, moet de robots.txt file verplaatst worden naar de site-root op example.com/robots.txt.
Opmerking: In het robots.txt bestand moet de subdirectory naam voorafgaan aan alle niet-toegestane Joomla paden. Bijvoorbeeld, de uitsluitingsregel voor de /administrator/ directory moet worden aangepast naar Disallow: /joomla/administrator/.
Dit is de inhoud van een standaard Joomla robots.txt-bestand:
# Als de Joomla-site in een map is geïnstalleerd
# bijvoorbeeld www.voorbeeld.com/joomla/ dan moet het robots.txt-bestand
# verplaatst worden naar de site root
# bijvoorbeeld www.voorbeeld.com/robots.txt
# EN de joomla mapnaam MOET worden voorgevoegd aan al de
# paden.
# bijvoorbeeld de Disallow-regel voor de map /administrator/ MOET
# gewijzigd worden naar
# Disallow: /joomla/administrator/
#
# Voor meer informatie over de robots.txt standaard, zie:
# https://www.robotstxt.org/orig.html
User-agent: *
Disallow: /administrator/
Disallow: /api/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/
Uitsluiting van Robots
Je kunt directories uitsluiten of robots blokkeren van je site door een Disallow-regel toe te voegen aan het robots.txt bestand. Om bijvoorbeeld te voorkomen dat robots de /tmp directory bezoeken, voeg je deze regel toe:
Disallow: /tmp/
JSW CRM