Hoppa till huvudinnehåll
Semantiko

SEO · 12 min

Crawling och indexering: Så får du Google att hitta rätt

Praktisk guide till crawling och indexering: robots.txt, sitemap, canonical, JavaScript och tekniska krav som avgör om Google kan visa dina sidor.

Publicerad: Av Tommy Skålberg, Google Ads, UX & Webbutveckling

Crawling och indexering är den del av teknisk SEO där många rankingproblem börjar. Det är också den del som ofta missförstås: en sida kan vara publicerad, länkad i menyn, fin i webbläsaren och ändå saknas helt i Google.

Google behöver först upptäcka URL:en, få tillåtelse att hämta den, läsa ett fungerande svar, rendera innehållet och välja om sidan ska in i index. Först därefter kan ranking, snippets, AI Overviews och annan söksynlighet bli relevant.

Den här guiden bygger på Googles Search Central-dokumentation och Semantikos praktiska arbetssätt vid tekniska SEO-audits. Målet är inte att täcka varje edge case, utan att ge dig en stabil kontrollista för att hitta och åtgärda de fel som gör att viktiga sidor inte syns.

Crawling, rendering och indexering är tre olika saker

Google Search arbetar förenklat i tre steg:

  1. Crawling: Googlebot hämtar URL:er genom länkar, sitemap-filer och tidigare kända signaler.
  2. Rendering: Google försöker förstå sidan som en modern webbläsare, inklusive JavaScript när det behövs.
  3. Indexering: Google analyserar innehåll, metadata, canonical-signaler och kvalitet för att avgöra om sidan ska sparas i indexet.

Det viktiga är att stegen kan fallera var för sig. En sida kan crawlas men inte indexeras. Den kan indexeras men förlora sin canonical till en annan URL. Den kan renderas korrekt i din webbläsare men sakna huvudtext i Googles renderade HTML.

Googles tekniska minimikrav är enkla på papperet: Googlebot får inte vara blockerad, sidan ska fungera tekniskt och innehållet ska vara indexerbart. Det betyder inte att sidan garanterat indexeras. Det betyder bara att den är kvalificerad för att bli övervägd.

Minimikraven: börja med det som avgör allt

När en viktig sida inte syns i Google ska du börja med de mest basala frågorna. De låter banala, men de löser en stor del av verkliga indexeringsproblem:

  • Returnerar sidan HTTP 200?
  • Kräver sidan inloggning, cookie-samtycke, geoblockering eller JavaScript-behörighet för att visa huvudtexten?
  • Blockeras URL:en, CSS, JavaScript eller viktiga resurser i robots.txt?
  • Finns en noindex-signal i HTML eller via X-Robots-Tag?
  • Pekar canonical till sig själv eller till en annan URL?
  • Ligger URL:en i sitemap och länkas den internt från relevanta sidor?

Det här är också den ordning vi ofta felsöker i Google Search Console. URL-inspektionen visar hur Google ser en enskild sida. Page Indexing-rapporten visar mönster över många URL:er. Crawl Stats-rapporten visar om Googlebot faktiskt når sajten och vilka svar den får.

robots.txt: styr crawlbudget, inte sekretess

robots.txt är till för att styra vilka URL:er crawlers får hämta. Den är användbar för att minska crawl av irrelevanta ytor som interna sökresultat, filterkombinationer, kalender-URL:er eller andra URL-mönster som skapar många varianter utan unikt värde.

Den är däremot fel verktyg för att dölja innehåll från Google.

Om en blockerad URL får länkar från andra sidor kan Google fortfarande känna till URL:en och i vissa fall visa den utan snippet. Google har då inte fått läsa sidan, men URL:en kan ändå vara känd. Vill du verkligen hålla en sida borta från sökresultat ska du normalt använda noindex, lösenordsskydd eller ta bort sidan med korrekt statuskod.

robots.txt och noindex löser olika problem
Funktionrobots.txtnoindex
Primär funktionHindrar crawling av angivna URL-mönsterHindrar indexering av en sida eller resurs
Krav för att fungeraCrawlers måste kunna hämta robots.txtGoogle måste få crawla sidan och se signalen
Vanlig riskBlockerar sidor Google behöver läsa för att se noindex eller canonicalLämnas kvar av misstag på viktiga sidor efter staging eller migrering
Bra användningFilter, sökresultat, oändliga kalender-URL:er, onödiga parametrarTack-sidor, interna dokument, tunna sidor som ska vara publika men inte ranka

En vanlig fallgrop är att kombinera Disallow med noindex på samma URL. Om Google inte får crawla sidan kanske den aldrig ser noindex-taggen. Då har du blockerat vägen till signalen som skulle lösa problemet.

Sitemap: en prioriteringslista, inte en garanti

En sitemap berättar vilka URL:er du själv tycker är viktiga. Den hjälper Google att hitta nya och uppdaterade sidor, särskilt på större sajter, nya sajter, e-handelssajter med många produkter eller webbplatser med mycket bild- och videoinnehåll.

Men en sitemap garanterar inte indexering. Den är en signal, inte en order.

En bra sitemap innehåller bara canonical-URL:er som du faktiskt vill ha i sökresultatet. Den ska använda absoluta URL:er, vara tillgänglig för crawlers och uppdatera lastmod först när huvudinnehåll, strukturerad data eller viktiga länkar har ändrats. Att automatiskt ändra datum för varje build utan innehållsförändring gör signalen mindre trovärdig.

För större sajter gäller dessutom två praktiska gränser: en sitemap får innehålla högst 50 000 URL:er och vara högst 50 MB okomprimerad. Större sajter delar upp URL:erna i flera sitemap-filer och samlar dem i ett sitemap-index.

Canonical: hjälp Google välja rätt version

Canonicalisering handlar om att välja den representativa URL:en när flera URL:er visar samma eller mycket likt innehåll. Det kan handla om http kontra https, www kontra icke-www, URL-parametrar, filter, sortering, kampanjtaggar, mobilversioner eller duplicerade produktsidor.

Google kan välja canonical själv, men du kan påverka valet med flera signaler:

  • Interna länkar som pekar till den föredragna URL:en.
  • rel="canonical" i sidans <head>.
  • Sitemap som bara listar canonical-versioner.
  • 301-redirects från URL:er som inte längre ska finnas kvar.

Ju mer konsekventa signalerna är, desto större chans att Google väljer rätt URL. Om sitemap pekar på en URL, canonical på en annan och interna länkar på en tredje skapar du osäkerhet.

Tänk också på att canonical är en stark hint, inte en absolut regel. Om Google bedömer att en annan URL är mer representativ kan den väljas ändå. Därför är felsökning i URL Inspection så viktig: där ser du både användardeklarerad canonical och Googles valda canonical.

JavaScript: gör huvudtext och länkar synliga tidigt

Google kan rendera JavaScript med en modern Chromium-baserad renderer. Det betyder inte att JavaScript SEO är riskfritt.

Rendering kan ske senare än initial crawling. Andra crawlers, inklusive vissa AI- och sociala crawlers, kör inte alltid JavaScript. Och om appen kräver client-side datahämtning för att visa rubriker, brödtext, interna länkar eller canonical kan Google få en svagare eller senare signal än nödvändigt.

För SEO-kritiska sidor är det därför bättre att serverrendera eller statiskt generera huvudcontent, metadata, canonical, strukturerad data och interna länkar. JavaScript kan fortfarande användas för interaktion, men sidan ska inte vara tom utan det.

Särskilt viktigt:

  • Använd riktiga länkar: <a href="/sida"> i stället för klickbara span-element eller javascript:-URL:er.
  • Använd History API för client-side routing, inte fragment som #/produkter.
  • Sätt canonical i HTML-källan när det går.
  • Låt inte en initial noindex ändras till index med JavaScript. Google kan avstå från rendering när den redan sett noindex.
  • Returnera riktiga statuskoder för borttagna sidor. En SPA som visar "sidan finns inte" men returnerar 200 riskerar soft 404-problem.

Internlänkning: Googles karta genom sajten

Sitemap hjälper Google att hitta URL:er, men interna länkar hjälper Google att förstå relationer, prioritet och kontext.

En viktig sida som bara finns i sitemap men saknar interna länkar är en svag signal. Den ser isolerad ut. En sida som däremot länkas från relevant kategori, relaterade artiklar, brödsmulor och nav får både upptäckbarhet och tematisk kontext.

Bra internlänkar har:

  • Ett riktigt href som Google kan följa.
  • Beskrivande ankartext, inte bara "läs mer".
  • Relevans mellan källsida och målsida.
  • Länkar till canonical-versionen, inte parameter- eller kampanjvarianter.

För kunskapsbanker, e-handel och B2B-sajter är internlänkning ofta den snabbaste vägen till bättre indexering av djupa sidor. Det är också en av de vanligaste luckorna vi hittar i en SEO-audit.

Vanliga indexeringsproblem och hur du hittar dem

Här är de problem som återkommer oftast när viktiga sidor saknas i Google:

Sidan är blockerad på fel nivå

Det kan vara robots.txt, meta robots, X-Robots-Tag, brandvägg, geoblockering, Basic Auth eller ett WAF-filter som behandlar Googlebot annorlunda än vanliga användare. Börja alltid med URL Inspection och kontrollera samtidigt serverloggar om du har tillgång.

Google väljer en annan canonical

Om Google väljer en annan canonical än du tänkt behöver du jämföra signalerna. Är innehållet för likt en annan sida? Pekar interna länkar fel? Ligger fel URL i sitemap? Finns kampanjparametrar eller filter som gör att Google hittar flera versioner?

Sidan saknar unik huvudtext

Google indexerar inte varje tekniskt fungerande URL. Tunna sidor, duplicerade landningssidor, kategorier utan egen beskrivning eller produktsidor med nästan identiskt innehåll kan väljas bort. Här behöver du stärka innehållet, slå ihop sidor eller göra tydligare canonical-val.

JavaScript fördröjer det viktigaste innehållet

Om HTML-källan saknar huvudtext och interna länkar, och allt hämtas client-side, behöver du testa renderad HTML i Search Console. För affärskritiska sidor är serverrendering eller statisk generering oftast en bättre väg.

Sitemap och verklighet stämmer inte överens

En sitemap med 404:or, redirectade URL:er, noindex-sidor eller icke-canonical-varianter skickar brus till Google. Rensa sitemap så att den bara innehåller sidor som ska indexeras.

Checklista: så felsöker du en URL som inte indexeras

Använd den här ordningen när en sida borde synas men inte gör det:

  1. Kör URL Inspection i Search Console och kontrollera indexeringsstatus.
  2. Kontrollera HTTP-status: sidan ska returnera 200 om den ska indexeras.
  3. Läs HTML-källan och leta efter noindex, canonical och metadata.
  4. Kontrollera X-Robots-Tag i HTTP-headers, särskilt för PDF:er och andra filer.
  5. Kontrollera att robots.txt inte blockerar sidan eller resurser som krävs för rendering.
  6. Jämför användardeklarerad canonical med Googles valda canonical.
  7. Kontrollera om URL:en finns i sitemap och om sitemap bara innehåller canonical-URL:er.
  8. Kontrollera interna länkar: finns riktiga länkar från relevanta sidor?
  9. Testa renderad HTML om sidan bygger på JavaScript.
  10. Bedöm innehållskvalitet och unikhet om allt tekniskt ser korrekt ut.

Vad betyder det för svenska företag?

För de flesta svenska B2B- och e-handelssajter är crawling och indexering inte ett isolerat tekniskt projekt. Det påverkar hela intäktskedjan. Om kategorisidor, produktsidor, lokala landningssidor eller kunskapsartiklar inte indexeras försvinner de från den organiska efterfrågan.

Samtidigt blir teknisk tydlighet viktigare i AI-drivna sökgränssnitt. Google AI Overviews, ChatGPT Search och Perplexity bygger fortfarande på att innehåll går att hämta, tolka och citera. En sida som kräver tung client-side rendering, blockerar crawlers eller har otydliga canonical-signaler får sämre förutsättningar även där.

Det praktiska rådet är enkelt: gör dina viktigaste sidor lätta att hitta, lätta att läsa och lätta att välja som huvudversion. Då lägger du grunden för både klassisk SEO och AI-söksynlighet.

Källor och vidare läsning

Den här artikeln bygger på Semantikos arbetsmetodik och Googles egna riktlinjer från Search Central:

Redo att lyfta resultatet?

Vi bygger mätbar synlighet och försäljning – SEO, annonsering, CRO och webb under ett tak.