Angemeldet bleiben
Passwort vergessen?
Jetzt registrieren!
logo
  • OMT-SUMMIT
  • Events
    • OMT 2025
      Online Marketing Wissen auf das nächste Level heben!
    • OMT-Toolkonferenz
      Die kostenfreie Toolkonferenz für Toolanbieter
    • Agency Day
      Der Treffpunkt für Agenturinhaber
    • OMT KI-Konferenz
      Digital-Konferenz für Entscheider und Anwender
    • OMT-Clubtreffen
      Clubtreffen in vielen Städten der DACH-Region
    • Eventrezensionen
      Die wichtigsten Konferenzen 2025 mit Rezensionen
  • Lernen
    • Seminare
      Lerne von den Besten mit unseren Hybrid-Seminaren
      • Advanced Content Marketing Seminar
      • Amazon DSP Seminar
      • Amazon Marketing Basics Seminar
      • Amazon PPC Seminar
      • Amazon Seminar
      • Amazon SEO Seminar
      • B2B SEO Seminar
      • Copywriting Seminar
      • E-Commerce SEO Seminar
      • Facebook und Instagram Ads Seminar
      • Gendergerechte Sprache Seminar
      • Google Ads Seminar
      • Google Analytics Seminar
      • Google Search Console Seminar
      • KI Seminar
      • KNIME Seminar
      • Leadgenerierung im digitalen Zeitalter
      • Linkbuilding Seminar
      • LinkedIn Ads Seminar
      • LinkedIn Advertising (Ads) Seminar für Fortgeschrittene
      • LinkedIn Seminar
      • Local SEO Seminar
      • Matomo Seminar (Google Analytics Alternative)
      • Online Marketing Seminar
      • Online Marketing Strategie Seminar
      • Onpage SEO Seminar
      • SEO für Online Shops Seminar
      • SEO Seminar
      • SEO Seminar für Fortgeschrittene
      • SEO Seminar für Management
      • Social Media Seminar
      • Strategisches CRM- & Lead-Management als Wachstumstreiber
      • WordPress Seminar
    • Magazin
      Online Marketing Artikel von Experten
    • Webinare
      Kostenlose Online Marketing Webinare: Termine & Mediathek
      • SISTRIX Website Clinic
      • FRIDAY Insights
      • Affiliate Marketing Webinare
      • Content Marketing Webinare
      • Facebook Ads Webinare
      • Google Ads Webinare
      • Google Analytics Webinare
      • SEO Webinare
      • Social Media Webinare
    • Podcast
      Geballtes Online Marketing Wissen für die Ohren
      • E-Mail Marketing Podcasts
      • Google Ads Podcasts
      • Inbound Marketing Podcasts
      • Influencer Marketing Podcasts
      • Marketing Podcasts
      • Performance Marketing Podcasts
      • Suchmaschinenmarketing Podcasts
      • Social Media Podcasts
      • SEO Podcasts
    • Speaker Academy
      Der Speaker Workshop mit Bane Katic
    • Sales Academy
      Vertriebstraining mit Bane Katic & Mario Jung
  • Downloads
    • Templates
      Kostenlose Templates & Vorlagen
      • YouTube Templates
      • LinkedIn Templates
      • Instagram Templates
      • E-Mail Templates
    • eBooks
      Große Auswahl an kostenfreien Ebooks
    • (Print-)Magazin
      Alle OMT-Magazinausgaben zum Download
    • Leadmagneten
      Auswahl aller OMT-Leadmagnenten
    • Studentenarbeiten
      Studentenarbeiten zum Thema Online Marketing
    • Toolvergleiche
      Kostenfreie Tool- und Softwarevergleiche
  • Services
    • Freelancervermittlung
      Finde die passenden Freelancer für Dein Projekt
    • SEO Check
      Kostenlose Quick-Analyse Deiner Website
    • Engagement-Studie
      Starte in 2024 mit mehr Effektivität
  • Tools
  • Agenturfinder
Club-Login

    Inhaltsverzeichnis:

  • Crawlrate vs. Loadtimes?
  • Auswirkungen von Statuscodes
  • Effizienz von Ressourcen / Caching-Strategien
  • Killer-Argumente für die Feedmanager, SEA Manager und Social Media Guys
  • Crawlt Google bis zur letzten Seite meiner Kategorieseiten?
  • Hall of Fail: Vertrauen ist scheiße, Kontrolle hilft Allen
Logfiles: Insights aus 4 Milliarden Server-Hits

Logfiles: Insights aus 4 Milliarden Server-Hits

Lesezeit: 8 Min | Autor: Eyüp Alikilic

Teile den Artikel

Wie erhälts du Insights zu einem Blackbox-Algorithmus wie die von Google? Ganz klar und fast schon ein No-Brainer: Wir tracken das Verhalten, denn die größte Spur hinterlässt Google mit seinen Crawlern auf deiner Webseite. Jeder einzelne Hit, jeder einzelne Fehler und jede noch so kleine Anomalie und Verhaltensmuster wirst du in deinen Logfiles extrahieren können. Das Beste an Logfiles ist: Erstens müsst ihr nichts dafür zahlen und die Insights daraus gleichen einer unendlichen SEO Goldgrube. Ich bin der leidenschaftlichen Meinung, dass Logfiles das Leben und den Alltag eines jeden SEOs erheblich erleichtern. Und wenn du der Meinung bist, du kannst technisch nichts mehr optimieren, dann musst du definitiv in deine Logfiles schauen.

Logfiles: Insights aus 4 Milliarden Server-Hits
kostenfreies Webinar
Logfiles: Insights aus 4 Milliarden Server-Hits — Eyüp Alikilic

Alles was Entwickler, IT, Frontend oder Backend jemals unter den Teppich gekehrt haben, werden durch Logfiles zu Tage getragen. Nur wer seine Logfiles tiefgehend analysiert und beobachtet kann eine effiziente und ...

Gratis anschauen

Was sind Logfiles und wie sehen die aus? Zur Auffrischung erkläre ich das in ein paar kurzen Sätzen:

Webserver speichern jeden einzelnen Request die bearbeitet werden, unabhängig von dem eingesetzten Webserver. Sei es der Apache, Nginx oder aber auch Cloud-Anbieter wie beispielsweise der Salesforce Cloud Commerce, jede Software erstellt quasi einen Protokoll seiner arbeit. Diese werden dann gespeichert und irgendwo abgelegt.

titlebox-logo

Eine Zeile sieht dann beispielsweise folgendermaßen aus:

66.249.76.56 – – [08/Sep/2017:09:23:08 +0200] “GET http://www.yourdomain.com/skin/frontend/default/fonts/OpenSans-Light.woff HTTP/1.1″ 200 19984 “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”

Das wiederholt sich dann pro verarbeitete Request so weiter und scheint fast unendlich zu sein.

Wichtige Komponenten sind dann zum Beispiel folgende Daten

– IP-Adresse

– Zeitstempel

– Angeforderte Ressource

– HTTP Statuscode

– Größe der Ressource

– User-Agent String

Damit wären wir auch bei den ersten drei Insights:

  1. Logfiles sind bei größeren Seiten sehr sehr groß. Bei unseren Setups verarbeiten wir Monatlich Terabytes an Daten, was natürlich sehr herausfordernd ist. Wie wir was lösen, kommt gleich.
  2. Logfiles enthalten personenbezogene Daten. Das ist die Alarmglocke für jeden Datenschützer. Heißt für euch: es muss ein Punkt in AGBs, Privacy Policy etc. eingepflegt werden. Siehe als Beispiel (https://corporate.aboutyou.de/en/privacy-policy). Viel wichtiger ist die Weiterverarbeitung der Daten. Am Besten ist es ihr anonymisiert die Daten, in dem ihr die letzten 16-Bits der IP-Adresse nullt. Beispielsweise wird dann aus der IP 66.249.76.56 ( welche von Google ist) die IP-Adresse 66.249.0.0. Somit ist die IP-Adresse „verallgemeinert“ und nicht auf eine Person zurückzuführen und trotzdem kriegt ihr die Zuordnung zu Google-Crawlern. Diese beginnen im Großteil mit 66.249.
  3. Logzeilen und einzelne Metriken können erweitern/manipuliert werden. Apache beispielsweise kann Informationen die Verarbeitungszeiten wie Time to first byte oder time to serve request mitloggen. Das hilft ungemein bei der Erkennung von schlechten Backend-Timings und unperformanten Requests. Oder aber auch bei der Erkennung von abgerauchten Servern.

Nun kommen wir zu den Insights direkt aus den Cases.

Wie bereits erwähnt, können  Logfiles sehr groß werden. Damit du ein Gefühl hast ein Beispiel für eine Domain in einem unserer Cases:

logfiles-01

Die Setups um so einen Datenvolumen zu handlen variieren jedoch nach Kundenanforderungen. Wir arbeiten mit drei unterschiedlichen Setups.

  1. Ein selbstgemanagtes Cluster vom ELK-Stack, sei es auf eigener Hardware oder auf der AWS oder GCP. Das bietet die höchstmöglichste Flexibilität und Individualität, was auch am günstigsten ist. Nachteil ist der DevOps-Aufwand und die Wartung eines hochdynamischen Clusters.
  2. Eine Serverless-Architektur auf GCP, wo wir die Rohdaten auf Cloud Storage speichern, mit Dataflow verarbeiten und anreichern, innerhalb von BigQuery ablegen und schlussendlich mit Data Studio visualisieren. Dieses Setup ist am einfachsten zu Warten und flexibel genug.
  3. Das Nutzen des Elastic Cloud Services, welches alles unter einer UI anbietet, jedoch auch am teuersten von allem ist. Kunden/Anwender ohne DevOps-Erfahrung oder Ressourcen sind hier am Besten aufgehoben.

Du musst dich nicht festnageln auf eines der oben genannten Setups. Das kann beliebig erweitert oder verändert werden. Jedoch hat sich das für unseren Alltag bewährt.

Kommen wir zu den tatsächlichen SEO Insights. Was bringt die Analyse der Logdaten für einen Mehrwert in meiner operativen SEO Tätigkeit? Legitime Frage und hier folgt die Antwort, was wir aus bisher 4-5 Milliarden Serverhits im Jahr an wertvollen Insights extrahiert haben. Unsere Cases sind ausschließlich aus eCommerce-Cases im Enterprise-Umfeld.

Crawlrate vs. Loadtimes?

Die Linie in rot steht für die Anzahl der Hits durch Google-Crawler. Die rote Linie zeigt die Ladezeiten an. Hier wird deutlich wie sensibel Google auf Veränderungen der Ladezeiten und vor allem auf hohe Ladezeiten reagiert. Kaum steigt die Ladezeit, verabschieden sich Crawler höflich und crawlen vermutlich bei der Konkurrenz weiter. Wer so eine Ansicht nicht monitort, dem Fehlt das Wissen zu seiner eigenen Infrastruktur.

logfiles-02

Auswirkungen von Statuscodes

Jeder SEO kennt die Statuscodes auswendig, doch die Auswirkungen auf das Crawlverhalten sind meistens unbekannt bzw. wird kaum beachtet. Um zu sehen wie Google mit einzelnen Statuscodes umgeht, haben wir uns kritische Statuscodes analysiert. 500er Serverfehler(siehe Abbildung P2) sind für Google ein umissverständliches Signal, dass er aufhören soll zu crawlen. Selbst bei 10-20 Hits halbiert sich Crawlrate. Bei Weiterleitungen jeglicher Art steigert Google die Crawlrate nahezu auf das Doppelte(höchste Crawlrate im Analysezeitraum – siehe P2). Ähnliches findet statt, wenn viele 404er ausgespielt werden. Hier werden aber auch umliegende Seiten und Unter/Oberkategorien gecrawlt, um zu sehen, ob die Inhalte im Index noch aktuell sind.

logfiles-03

Effizienz von Ressourcen / Caching-Strategien

40KB für ein Font sind nicht viel richtig? Schonmal die Zahlen für einen gesamten Monat analysiert für einen eCommerce-Player der auf 15 Ländern aktiv ist? Ich fasse es zusammen: knapp 100GB an erzeugter Bandbreite in einem Monat und unfassbar viele Requests die der Webserver unnötig verarbeitet.

Grund dafür sind fehleden Caching-Guidelines. Es sind keine sinnvolle Ablaufzeiten definiert. Mechanismen wie ETags oder Cache-Control werden häufig vernachlässigt. Wenn du dann einen gesamtheitlichen Blick auf die Logfiles wirfst, siehst du die tatsächlichen Auswirkungen. Insbesondere bei JS und CSS-Ressourcen zählt jeder Byte.

In diesem Fall haben wir die Fonts(die übrigens komplett rausgeworfen worden sind, da kein visueller Unterschied für den User) rausgekickt. JS und CSS Ressourcen wurden mit Brotli um ca. 17% reduziert.

Killer-Argumente für die Feedmanager, SEA Manager und Social Media Guys

SEOs haben schon immer die Fehler der Marketingleute ausgebügelt. Mit Logfiles könnt ihr die direkten Verantwortlichen finden und die Zahlen auf die entsprechende Nase binden. Oder höflich darauf hinweisen.

logfiles-06

Der Vorteil von Logfiles sind, dass auch die Crawler von Google Ads / Bing Ads sichtbar sind. Check mal die Crawlabdeckung der SEA-Feeds. Wir haben entdeckt, dass 28% der URLs innerhalb von drei Monaten, nicht gecrawlt. Grund war eine Änderung der URL Struktur, wo die SEA Manager vergessen hatten, die Kampagnen-URLs zu aktualisieren. Ähnliches bei der Affiliate Kampagne: 3.5 Millionen weitergeleitete URLs im Monat aufgrund der Nutzung von veralteten URLs. Stell dir die unnötige Serverlast vor. Anstatt 70 Backend-Servern würden dann 50 Server auch ausreichen. Vorallem bei Social Media sind dann noch ewig-alte URLs verlinkt, die in die leere Laufen oder über 4 Hops weiterleiten.

In einem Case haben wir entdeckt, wie sich Sucheinsprungs-URLs für User/Suchmaschinen auswirken. Diese URLs, welche für Google Feeds gedacht waren, hatten 3-4fach langsamere Backend-Werte. Fazit: Sucheinsprünge werden nicht mehr für Ads benutzt.

Crawlt Google bis zur letzten Seite meiner Kategorieseiten?

Die Frage ist, brauchst du überhaupt 456 Paginierungsseiten. Google crawlte in unserem Fall effektiv nur bis Seite 40. Die Crawlhits danach waren verschwindend gering. Du lernst durch die Logfiles wie Google überhaupt deine Seite wahrnimmt und mit dieser interagiert.

logfiles-04

In einer anderen Auswertung haben wir die Relevanz der Hauptnavigationspunkte für Google gemessen. Dort wurde dann sichtbar, wie Google mit der Navigation umgeht, was das für unsere interne Verlinkung bedeutet und wie wir die Reihenfolge optimieren könnten.

logfiles-05

Der erste Navigationspunkt wurde bis zu fünfmal mehr aufgerufen als der Zweite und das zieht sich konsequent linear durch.

Hall of Fail: Vertrauen ist scheiße, Kontrolle hilft Allen

Den krönenden Abschluss möchte mit einem ganz besonderen Fund machen. Denn ein Entwickler hat es tatsächlich geschafft jeder Seite eine Passwortvalidierung unterzujubeln. Genau, auf jeder Seite des Shops wird das Passwort, was in ein Formular getippt wird validiert. Nicht nur, dass es unnützer Code auf jeder Seite ist. Die Validierung fand clientseitig statt – alle Passwörter die vermeintlich Schwach waren oder häufig verwendet wurden, waren in einer 400KB Datei eingebunden. So wurde das Passwort quasi mit der Weltliteratur abgeglichen und dass auf jeder einzelnen URL der Seite. In Zahlen: 200GB Gesamttraffic, 10GB an Googlecrawler. Mehr als sieben Sekunden schnellere Time-to-Interactive wurden erzielt, wobei sich die Seitengröße um 30% reduziert hat. Wie gesagt: Vertrauen ist keine gute Sache, zumindest nicht bei Entwicklern.

Logfile-Analysen und Monitorings sind die treuen Begleiter eines jeden SEOs. Wir führen fast keine Relaunches/Launches, keine SEO-Strategie und keine Maßnahmen ohne sie durch. Ohne Logfiles fehlt uns das Fundament einer datengetriebenen SEO-Strategie. Alles was Entwickler, IT, Frontend oder Backend jemals unter den Teppich gekehrt haben, werden durch Logfiles zu Tage getragen. Nur wer seine Logfiles tiefgehend analysiert und beobachtet kann eine effiziente und saubere Infrastruktur für Suchmaschinen und User anbieten.

Wir haben für unsere Kunden mehr als 4 Milliarden Server-Hits analysiert und haben etliche Insights, Quick-Wins, Fails und einen einzigartigen Einblick in das Crawlverhalten von Google-Crawlern gewonnen. Insbesondere große Infrastrukturen profitierten von den gewonnen Insights, da wir jeden einzelnen Hit kritisch ausgewertet haben und bis ins Detail gegangen sind.

Für mehr Cases und Insights hat das OMT-Team ein Webinar vorbereitet, wo wir noch mehr Insights haben, wo du Fragen stellen kannst oder auch deine Erfahrungen teilen kannst.

Logfiles: Insights aus 4 Milliarden Server-Hits
kostenfreies Webinar
Logfiles: Insights aus 4 Milliarden Server-Hits — Eyüp Alikilic

Alles was Entwickler, IT, Frontend oder Backend jemals unter den Teppich gekehrt haben, werden durch Logfiles zu Tage getragen. Nur wer seine Logfiles tiefgehend analysiert und beobachtet kann eine effiziente und ...

Gratis anschauen

omt logo

Diesen Artikel jetzt als Podcast anhören

Jetzt anhören auf: Spotify | Apple Podcast | Google Podcast

Sie sehen gerade einen Platzhalterinhalt von YouTube. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen
Inhalt entsperren Erforderlichen Service akzeptieren und Inhalte entsperren
Teile den Artikel
Wie ist Deine Meinung zu dem Thema? Wir freuen uns über Deinen

Diesen Artikel bewerten

1 Stern2 Sterne3 Sterne4 Sterne5 Sterne 2 Stimmen, Bewertung: 4,00 von 5)

Willst Du im Online Marketing besser werden?

Mit unserem Newsletter schicken wir Dir regelmäßig unsere neusten Webinare und Magazinartikel zu den unterschiedlichen Online Marketing Themen. Mehr als 10.000 Abonnenten nutzen es bereits!

Sie sehen gerade einen Platzhalterinhalt von HubSpot. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.

Inhalt entsperren Erforderlichen Service akzeptieren und Inhalte entsperren
Mehr Informationen

Eyüp Alikilic

Eyüp Alikilic

Eyüp Alikilic ist SEO-Consultant bei der duisburger Performanceagentur artefact Germany. Seine Schwerpunktthemen sind Mobile Web, PageSpeed sowie Data Analytics. Mit seiner technischen Expertise berät er Großkunden hauptsächlich im E-Commerce und sorgt für zumindest aus technischer Seite für schnelle User Experiences.

Weitere interessante Artikel zum Thema:

Pagination: Gestaltungsbeispiele & Best Practices OMT Magazin

Pagination: Gestaltungsbeispiele & Best Practices Suchmaschinenoptimierung

Yvonne Westerbeck 14 Min

Was ist Pagination? Pagination (zu Deutsch: Paginierung, Seitenaufteilung) bezeichnet das Aufteilen von Inhalten in einzelne Seiten. Ganz klassisch kennen wir das von Online-Shops: [caption id="at...
Erfolgreiche SEO-Optimierung mit TYPO3: Deine Website auf die nächste Stufe bringen OMT Magazin

Erfolgreiche SEO-Optimierung mit TYPO3: Deine Website auf die nächste...

Suchmaschinenoptimierung

Christian Jäger 10 Min

Search Experience Optimization: In 5 Schritten zur besseren Sucherfahrung OMT Magazin

Search Experience Optimization: In 5 Schritten zur besseren Sucherfahr...

Suchmaschinenoptimierung

Michael Möller 20 Min

Wie Google AI Overview SEO verändern wird OMT Magazin

Wie Google AI Overview SEO verändern wird

Suchmaschinenoptimierung

Andreas Depner 12 Min

Abonnieren
Benachrichtige mich bei
guest
guest
0 Comments
Oldest
Newest Most Voted
Inline Feedbacks
View all comments
https://www.reachx.de https://www.pure-host.de/ https://de.depositphotos.com/
Du bist hier: 
  • Home
  • »
  • Suchmaschinenoptimierung
  • »
  • Logfiles: Insights aus 4 Milliarden Server-Hits

Alles über…

  • Affiliate Marketing
  • Amazon Marketing
  • Amazon SEO
  • Content Marketing
  • Conversion Optimierung
  • Digital Marketing
  • Direktmarketing
  • E-Commerce
  • E-Mail-Marketing
  • Facebook Ads
  • Google Analytics
  • Google Ads (SEA)
  • Google My Business
  • Growth Hacking
  • Inbound Marketing
  • Influencer Marketing
  • Internet Marketing
  • Linkbuilding
  • LinkedIn Ads
  • Local SEO
  • Marketing
  • Online Marketing
  • Performance Marketing
  • Pinterest Marketing
  • Podcast Marketing
  • Public Relations (PR)
  • Social Media Marketing
  • Suchmaschinenmarketing (SEM)
  • Suchmaschinenoptimierung
  • TikTok Marketing
  • Video-Marketing
  • Webanalyse
  • Webdesign
  • WordPress

Sonstiges

  • OMT 2025
  • Toolkonferenz 2025
  • Agency Day 2025
  • OMT-Clubtreffen
  • Speaker Academy
  • Sales Academy
  • SEO Check
  • Download-Center
  • kostenfreie Online Marketing-Ebooks
  • Studentenarbeiten
  • Templates
  • Online Marketing Trends 2024
  • Alle Experten des OMT
  • OMT-Gehaltsumfrage
  • OMT-Club
  • OMT-Lexikon
  • Das OMT-Team
  • Jobs-Portal
  • Karriere beim OMT
  • Talentpool
  • Online Marketing Jobs
  • OMT-Botschafter
  • Newsletter

Rechtliches

  • AGB
  • Datenschutzerklärung
  • Impressum

OMT GmbH

Feldstraße 7
65719 Hofheim am Taunus
tel:06192 - 9626152
[email protected]
t

OMT-Bewertungen

https://www.omt.de/uploads/2021/01/OMT-Social-Bewertungen.png https://www.omt.de/uploads/2018/12/OMT-Google-Bewertungen-NEU-191223.jpg https://www.omt.de/uploads/2018/12/OMT-Facebook-Bewertungen-NEU-191223.jpg
wpDiscuz
0
0
Interessanter Artikel? Wir freuen uns über Deinen Kommentarx
()
x
| Antworten