Brug af robots.txt til begrænsning af søgemaskiners indeksering

Generelt

Websites indekseres ved at søgemaskinerne benytter såkaldte robotter.

Disse følger links rundt på internettet og indekserer indholdet af de sider de støder på. Dvs. at man ikke behøver at tilmelde sin side nogen steder, for at få siderne indekseret. Det skaber normalt ikke nogen problemer, da de fleste shopejere gerne vil have indekseret deres side og på den måde få mange besøg. Men nogle gange indekserer søgemaskinerne sider, som ikke skal offentliggøres.

Det kan være sider beskyttet med password, gamle uddaterede sider eller måske sider med specielle tilbud til udvalgte kunder. For at undgå dette, kan man benytte en robots.txt fil, den fortæller robotterne, hvad de må indeksere og ikke indeksere. En robots.txt fil er en fil der placeres i roden på websiden.

Dvs. at man skal kunne tilgå den ved at skrive http://domænenavn/robots.txt, den må ikke ligge i http://domænenavn/images/robots.txt. Når søgerobotten så besøger siden, vil den først undersøge om der findes en robots.txt, gør der det vil robotten rette sig efter de retningslinjer der stå deri.

Hvad skal der stå i en robots.txt fil?

En robots.txt fil er som det også vil fremgå af endelsen .txt en helt almindelig tekstfil – man kan benytte en almindelig tekst-editor (f.eks. Notepad) til at skrive sin fil.

Når du opsætter en regel er der to faktorer du kan regulere:

  1. Hvilke robotter gælder reglen for:

Angives med syntaksen: “User-agent” – værdien kan så være * (alle robotter) eller et specifikt navn på en robot.

  1. Hvilke mapper og filer må ikke indekseres

Angives med syntaksen: “Disallow” – værdien kan være en mappe eller en specifik fil.

Her er nogle eksempler på, hvordan filen kan opbygges.

Robotterne må ikke læse en bestemt fil:

Denne bruges til f.eks. at udelade en bestemt vare eller side fra indekseringen.

Det kan benyttes, hvis man ønsker at tilbyde en kunde en vare til en særlig pris, men andre kunder skal ikke kunne finde det via Google.

En bestemt robot må ikke indeksere:

Med denne regel har man indstillet at Google ikke må indeksere noget på siden, men andre søgemaskiner må gerne.

Standardsider

Shoppen har en række faste sider, som man typisk ikke er interesseret i at få indekseret i søgemaskinerne, da der ikke er noget indhold på dem der giver mening at kunden skal se som indgang til shoppen. F.eks. kurven. Disse sider kan man med fordel sætte ind i en robot.txt fil

En standard robot.txt fil kan se sådan her ud:

Bemærk: Tegnet * i slutningen af sætningen /shop/search-1.html* er ikke en fejl. Det skal stå der for at fortælle robotten at det er alle sider der starter med “/shop/search-1.html”, der skal udelukkes. Den vil nemlig altid have en række parametre efter sig.

Eksempel: Stop indexering af site, som feks. mobil site

Hvis man ønsker at f.eks. Google, ikke skal indeksere et site på shoppen, kan det gøres med et specielt robots <META> tag.

Det vil kunne se sådan ud:

Koden skal indsættes under opsætning -> site -> rediger site -> metatag kodefelt
Når koden indsættes i dette felt, kommer koden ind i HEAD sektionen på siden. Dette er optimalt, da dybe links, kan forekomme, hvor som helst på siden.
Der er disse kombinationer for META koden.
(Standard, hvis man ikke skriver noget, er index og follow, så de kommer ikke på listen)

Forklaring på koderne:
Index – Sitet må indekseres
Noindex – Sitet må ikke indekseres
Follow – Links på sitet må følges
Nofollow – Links på sitet må ikke følges
Og disse kan så kombineres, så man opnår det man ønsker.

Bemærk at robotter kan ignorere metatags, f.eks. malware robotter, der skanner for svagheder eller robotter der høster e-mail adresser.

Se flere eksempler hos html.dk her