Brug af robots.txt til begrænsning af søgemaskiners indeksering
Introduktion
Som udgangspunkt er det ikke sikkert, at du har behov for at gå i dybden med robots.txt. Det er kun hvis du ønsker at styre hvilke sider der bliver medtaget i søgeresultater på f.eks. Google, eller hvis du allerede har foretaget (eller har fået foretaget) ændringer i filen, at denne artikel er relevant. Shoppen er designet således, at alle relevante sider potentielt kan samles op af søgemaskinerne, hvis de bliver fundet relevante på baggrund af shoppens indhold og den søgeoptimering der er foretaget på shoppen. Vi gennemgår princippet bag robots.txt og viser hvordan du tilpasser filen, hvis du har behov for dette.
Robots.txt bruges til at håndtere de søgemaskinerobotter som crawler, og indekserer sider på nettet, til brug på f.eks. Google, Bing og DuckDuckGo’s søgemaskiner mv. Robotterne kravler med andre ord automatisk internettet, går fra link til link og “støvsuger” data, som analyseres til indeksering.
Når en robot kommer forbi din webshop, starter den med at læse hvad der står i robots.txt filen. Dette er en tekstfil skrevet i et format, som er standard for søgemaskinerobotter. Hvis du ønsker at fortælle robotten om sider den gerne må indeksere, eller sider den ikke skal crawle, gøres det i robots.txt filen. Når robotten har læst filen, går den i gang med at kravle siden. Søgemaskinerobotter læser sidens kode direkte og kan derfor finde links der måtte befinde sig mere eller mindre skjult.
Robots.txt filen ligger altid i “roden” af et website og derfor ved søgemaskinerobotterne hvor de skal finde den. Du kan selv finde robots.txt filen på din egen shop, ved at besøge ditdomæne/robots.txt.
Hvis du ønsker at redigere og uploade robots.txt filen på din DanDomain Classic Webshop gøres dette via FTP (en metode til filoverførsel online). Du kan redigere tekstfilen i Notesblok mv.
- Du finder shoppens FTP informationer under Indstillinger > Shopinfo
- Du kan f.eks. benytte FTP-klienten FileZilla, som er gratis.
Eksempel
Her er et eksempel på en standard robots.txt fil:
User-agent: *
Disallow: /side.asp
Disallow: /mappenavn1/
Første linje tillader f.eks. alle typer af robotter. Herefter ekskluderes to sider i shoppens struktur “side.asp” og “mappenavn1”. Robotten vil derfor ikke crawle disse to sider.
Parameter | Værdi | Beskrivelse |
User-agent: | * | User-agent henvender sig til den besøgende robot. Stjerne * står for “Alle“. “User-agent: *” betyder dermed at reglerne i denne robots.txt gælder alle besøgende søgemaskinerobotter. |
Disallow: | / | Disallow ekskluderer alt efter semikolon fra crawling. Hvis du indsætter “/mappe/“, vil denne mappe og alt dens indhold (både mapper og filer) ekskluderes fra robottens crawling. Dette betyder dog ikke at den pågældende mappe med indhold ikke bliver indekseret. |
Bemærk: Robots.txt filen er en guideline som man regner med at robotterne følger. Men det er ikke en garanti for at sider du f.eks. ikke ønsker at indeksere, ikke bliver indekseret. Det afhænger af den pågældende søgemaskinerobot. Du kan læse mere om Robots.txt her.
Værd at vide
Parameteret “noindex” er pr. 1. september 2019 ikke længere tilladt af Google i robots.txt filer. Ønsker man at benytte “noindex” kan dette implementeres som metatag i shoppens design filer. Dette kan f.eks. gøres ved at benytte parametre centralt i shoppens kode til at bestemme hvilke sider tagget skal indsættes på. Det kan ligeledes gøres på den enkelte side, som vist i følgende eksempel:
<meta name="robots" content="noindex,follow">
Vigtigt: Tagget fortæller søgemaskinerne at siden ikke skal indekseres. Vær derfor særlig opmærksom på ikke at eksponere dette tag på tværs af din shop, da du risikerer at miste al indeksering.
Redigering af shoppens designfiler kræver kendskab til template udvikling. Vi yder ikke support på egne tilretninger af kode i shoppens designfiler. Hvis du har behov for hjælp til indsættelse af metatags kan vores kundeservice henvise til en designpartner, som kan hjælpe dig videre.
Nyttige links
- Du kan læse mere om formatering af tekst med parametre og værdier i robots.txt her
- Du kan læse mere om metatags i denne artikel