Søgemaskiner er udstyret med robotter, også kendt som edderkopper eller bots, der gennemsøger og indekserer websider. Hvis dit websted eller din side er under udvikling eller indeholder følsomt indhold, kan du blokere bots for at gennemgå og indeksere dit websted. Lær, hvordan du blokerer hele websteder, sider og links med robots.txt -filer og blokerer bestemte sider og links med html -tags. Læs videre for at opdage, hvordan du blokerer bestemte bots for at få adgang til dit indhold.
Trin
Metode 1 af 2: Blokering af søgemaskiner med robots.txt -filer
Trin 1. Forstå robots.txt -filer
En robots.txt -fil er en almindelig eller ASCII -tekstfil, der informerer søgemaskinerne om hvad de har adgang til på dit websted. Filer og mapper, der er angivet i en robots.txt -fil, må ikke gennemsøges og indekseres af en søgemaskinespider. Du skal muligvis bruge en robots.txt -fil, hvis:
- Du vil blokere specifikt indhold fra søgemaskinens edderkopper.
- Du udvikler et live -websted og er ikke parat til at få søgemaskinens edderkopper til at gennemgå og indeksere webstedet
- Du vil begrænse adgangen til velrenommerede bots.
Trin 2. Opret og gem og robots.txt -fil
For at oprette filen skal du starte en almindelig tekstredigerer eller en kodeditor. Gem filen som: robots.txt. Filnavnet skal være lille.
- Glem ikke “s”.
- Når du gemmer filen, skal du vælge udvidelsen "'.txt"'. Hvis du bruger Word, skal du vælge "Almindelig tekst".
Trin 3. Skriv en robots.txt-fil, der ikke er tilladt
Det er muligt at blokere enhver velrenommeret søgemaskineedderkop fra at crawle og indeksere dit websted med en "fuldt afvist" robots.txt. Skriv følgende linjer i din tekstfil:
User-agent: * Disallow: /
Trin 4. Skriv en betinget tilladt robots.txt-fil
I stedet for at blokere alle bots, kan du overveje at blokere bestemte edderkopper fra bestemte områder af dit websted. Almindelige betingede tilladelseskommandoer omfatter:
- Bloker en bestemt bot: udskift stjernerne ved siden af Bruger-agent med googlebot, googlebot-nyheder, googlebot-image, bingbot, eller teoma.
-
Bloker et bibliotek og dets indhold:
User-agent: * Disallow: /sample-directory /
-
Bloker en webside:
User-agent: * Disallow: /private_file.html
-
Bloker et billede:
User-agent: googlebot-image Disallow: /images_mypicture.jpg
-
Bloker alle billeder:
User-agent: googlebot-image Disallow: /
-
Bloker et bestemt filformat:
User-agent: * Disallow: /p*.gif$
Trin 5. Tilskynd bots til at indeksere og gennemgå dit websted
Mange mennesker ønsker at byde søgemaskinens edderkopper velkommen i stedet for at blokere, fordi de vil have hele deres websted indekseret. For at opnå dette har du tre muligheder. Først kan du fravælge at oprette en robots.txt-fil-når robotten ikke finder en robots.txt-fil, fortsætter den med at gennemgå og indeksere hele dit websted. For det andet kan du oprette en tom robots.txt-fil-robotten finder robots.txt-filen, genkender, at den er tom, og fortsætter med at gennemgå og indeksere dit websted. Endelig kan du skrive en fuldt tilladt robots.txt-fil. Brug koden:
User-agent: * Disallow:
Trin 6. Gem txt -filen i roden af dit domæne
Når du har skrevet robots.txt -filen, skal du gemme ændringerne. Upload filen til dit websteds rodmappe. For eksempel, hvis dit domæne er www.dit domæne.com, placer filen robots.txt på www.yourdomain.com/robots.txt.
Metode 2 af 2: Blokering af søgemaskiner med metatags
Trin 1. Forstå HTML -robotter metatags
Roboternes metatag giver programmerere mulighed for at indstille parametre for bots eller søgemaskinespider. Disse tags bruges til at blokere bots fra at indeksere og gennemgå et helt websted eller bare dele af webstedet. Du kan også bruge disse tags til at blokere en bestemt søgemaskinespider for at indeksere dit indhold. Disse tags vises i hovedet på din HTML -fil.
Denne metode bruges almindeligvis af programmører, der ikke har adgang til et websteds rodmappe
Trin 2. Bloker bots fra en enkelt side
Det er muligt at blokere alle bots fra at indeksere en side og eller fra at følge en sides links. Dette mærke bruges normalt, når et live -websted er under udvikling. Når webstedet er færdigt, anbefales det på det kraftigste, at du fjerner dette mærke. Hvis du ikke fjerner tagget, bliver din side ikke indekseret eller søgbar via søgemaskiner.
- Du kan blokere bots fra at indeksere siden og følge et af linkene:
- Du kan blokere alle bots fra at indeksere siden:
- Du kan blokere alle bots for at følge sidens links:
Trin 3. Tillad bots at indeksere en side, men følg ikke dens links
Hvis du tillader bots at indeksere siden, indekseres siden; hvis du forhindrer edderkopperne i at følge linkene, vil linkstien fra denne specifikke side til andre sider gå i stykker. Indsæt følgende kodelinje i dit overskrift:
Trin 4. Lad søgemaskinens edderkopper følge linkene, men ikke indeksere siden
Hvis du tillader bots at følge linkene, forbliver linkstien fra denne specifikke side til andre sider i takt; hvis du begrænser dem fra at indeksere siden, vises din webside ikke i indekset. Indsæt følgende kodelinje i dit overskrift:
Trin 5. Bloker et enkelt udgående link
For at skjule et enkelt link på en side skal du integrere et rel tag i linket. Du vil måske bruge dette mærke til at blokere links på andre sider, der fører til den specifikke side, du vil blokere.
Indsæt link til blokeret side
Trin 6. Bloker en bestemt søgemaskinespider
I stedet for at blokere alle bots fra din webside, kan du forhindre en bot i at crawle og indeksere siden. For at opnå dette skal du erstatte 'robot' 'i metatagget med navnet på en bestemt bot. Eksempler omfatter: googlebot, googlebot-nyheder, googlebot-image, bingbot, og teoma.
Trin 7. Tilskynd bots til at gennemgå og indeksere din side
Hvis du vil sikre, at din side bliver indekseret, og dens links bliver fulgt, kan du indsætte en follow-allow meta "robot" tag i dit header. Brug følgende kode: