Hvad er Robots.txt? Forstå det grundlæggende i kontrol af website-crawling
Robots.txt er en tekstfil, som webmastere opretter for at instruere webrobotter (normalt søgemaskine-crawlere) om, hvordan de skal gennemgå sider på deres website. Filen placeres i hjemmesidens rodmappe, og den er struktureret til at angive for besøgende robotter, hvilke dele af hjemmesiden der skal behandles eller scannes, og hvilke der ikke skal. Den fungerer som en slags gatekeeper og sikrer, at crawlere er opmærksomme på de områder, de har tilladelse til at få adgang til og indeksere med henblik på søgemaskineresultater.
Tilstedeværelsen af en robots.txt-fil er vigtig, fordi den kan hjælpe med at forhindre overbelastning af dit websted med forespørgsler, beskytte følsomme oplysninger og styre søgemaskinerne mod det indhold, du finder vigtigst. Selvom den ikke er juridisk bindende, og selvom søgemaskinerne vil følge dens instruktioner, er den et vigtigt værktøj i en webmasters værktøjskasse til at optimere søgemaskinernes tilstedeværelse. Men da det er offentligt tilgængeligt, bør det ikke bruges til at beskytte fortrolige oplysninger.
Processen med at oprette og administrere en robots.txt-fil indebærer en forståelse af dit websites struktur og en bestemmelse af, hvordan du ønsker, at søgemaskinerne skal interagere med det. Det kan være en hårfin balance: at give søgemaskinerne tilstrækkelig adgang til at indeksere dit website effektivt og samtidig forhindre dem i at få adgang til områder, der enten er private eller ikke er nyttige til indeksering, f.eks. administratorsider eller duplikatindhold.
De vigtigste pointer
- En robots.txt-fil vejleder webrobotter om, hvilke dele af et websted der skal gennemgås.
- Korrekt håndtering af en robots.txt-fil kan hjælpe med søgemaskineoptimering.
- Oprettelse indebærer forståelse af webstedets struktur og ønskede bot-interaktioner.
Formål og funktion af Robots.txt
Filen robots.txt er et vigtigt værktøj for hjemmesideejere, da den fungerer som den første kommunikationslinje med webcrawlere. Denne tekstfil instruerer crawlerne om, hvilke dele af hjemmesiden der skal eller ikke skal behandles eller scannes.
Kontrol af Crawler-adgang
Vi bruger robots.txt-filen til at styre crawler-trafikken til vores hjemmeside. Den placeres i hjemmesidens rodmappe og angiver over for crawlere, hvilke mapper eller filer, der er hostet på domænet, der kan tilgås. Korrekt implementering af denne fil er afgørende, da den hjælper med at forhindre overbelastning af vores websted med anmodninger og sikrer, at vigtigt indhold indekseres. For eksempel:
- Tillad: Vi angiver, hvilke sider eller sektioner crawlere må besøge.
- Tillad ikke: Vi angiver stier, der er forbudt for crawlere for at forhindre dem i at få adgang til følsomme eller irrelevante områder.
Direktiver og almindelige anvendelser
Robots.txt-filer indeholder specifikke direktiver, der styrer crawlerens adfærd:
- Bruger-agent: Dette direktiv identificerer, hvilken crawler de følgende regler skal gælde for. Hver crawler har en unik user-agent-streng.
- Tillad ikke: Dette direktiv fortæller en brugeragent, at den skal undgå at crawle de angivne URL'er.
Her er almindelige anvendelser af disse direktiver i en robots.txt-fil:
- Blokering af alle webcrawlere fra alt indhold:
User-agent: *
Disallow: /
- Tillader alle webcrawlere at se alt indhold:
User-agent: *
Disallow:
- Blokering af en bestemt webcrawler fra en bestemt mappe:
User-agent: Googlebot
Disallow: /example-subfolder/
Vores brug af robots.txt-filen har til formål at optimere vores websteds interaktion med søgemaskiner og sikre, at de indekserer vores indhold effektivt uden at få adgang til områder, der kan spilde ressourcer eller krænke privatlivets fred.
Oprettelse og administration af Robots.txt
Når vi styrer vores websteds interaktion med webcrawlere, anerkender vi vigtigheden af en korrekt konfigureret robots.txt-fil. Denne fil styrer, hvordan søgemaskiner gennemsøger vores websted, og leder dem til det indhold, vi ønsker indekseret, samtidig med at den forhindrer adgang til følsomme områder.
Syntaks og regler
Robots.txt er en ren tekstfil, der bruger en enkel syntaks til at kommunikere med webcrawlere. De grundlæggende komponenter er direktiverne user-agent, disallow og allow. Vi bruger stjernen (*) til at betegne alle robotter, og vi angiver stierne til de mapper eller filer på vores hjemmeside, som vi ønsker at blokere.
Direktiv |
Funktion |
Bruger-agent |
Angiver den crawler, som reglen gælder for |
Ikke tillade |
Blokerer specificerede crawlere fra at få adgang til en sti |
Tillad det |
Giver eksplicit adgang til en sti for en crawler |
For at tillade eller begrænse adgang opretter vi linjer med "Disallow:" eller "Allow:" efterfulgt af den relative URL. Her er et par eksempler:
User-agent: *
Disallow: /private/
Allow: /public/
Bedste praksis
Når vi sammensætter vores robots.txt-filer, følger vi de bedste fremgangsmåder for at sikre, at vi kommunikerer vores intentioner klart til crawlere. Vi starter med at:
- Angivelse af en User-agent for hvert sæt direktiver, begyndende med det mest specifikke.
- Brug rene, absolutte stier for at undgå forvirring.
- Inkluderer et Sitemap-direktiv for at hjælpe søgemaskiner med at finde vores XML-sitemap.
Vi undgår at bruge robots.txt til at håndtere direktiver på sideniveau, som er bedre tjent med metatags, og vi er omhyggelige med ikke at blokere ressourcefiler (som CSS eller JavaScript), der kan påvirke, hvordan vores sider gengives. Vi opbevarer også vores robots.txt-fil i roden af vores domæne, så den er let tilgængelig ved at skrive http://www.example.com/robots.txt.
Test og validering
Før vi færdiggør ændringer, tester vi vores robots.txt-fil for at forhindre, at vi ved et uheld blokerer vigtigt indhold. Google tilbyder et gratis 'Robots.txt Tester'-værktøj i Google Search Console, som giver os mulighed for at kontrollere, at vores direktiver fungerer efter hensigten.
Vi tjekker også for fejl og advarsler, der kan påvirke, hvordan vores sider indekseres. Når vi har foretaget ændringer, reviderer og validerer vi løbende vores robots.txt-fil, så den er i overensstemmelse med ændringer i vores websteds struktur og de nye standarder for webcrawlere.