Kaputte Links senden ein fatales Signal an Besucher: „Diese Website ist veraltet und wird nicht mehr gepflegt!“ Das ist sicherlich nicht der Eindruck, den Du mit Deinen Seiten erwecken möchtest. Mit Dr. Link Check erhältst Du eine ebenso unkomplizierte wie leistungsstarke Lösung, um nicht funktionierende Links aufzuspüren und zu reparieren, bevor Dein guter Ruf Schaden nimmt.
Gib unten die Startadresse Deiner Website ein, um einen Schnell-Check zu starten:
Beginnend mit der Startseite, durchforstet Dr. Link Check schrittweise sämtliche Seiten Deiner Website. Dabei muss jeder gefundene Link verschiedene Tests durchlaufen und bestehen:
Im ersten Schritt wird überprüft, ob die Link-URL den Regeln entsprechend aufgebaut ist. Dadurch lassen sich Links wie https://www.example,com/
(Komma statt Punkt) oder http:images/example.jpg
(fehlender Hostname) unmittelbar als fehlerhaft aussortieren. Einige Links sind zwar anscheinend korrekt formatiert, verwenden jedoch ein von unserem Crawler nicht prüfbares URL-Schema (wie beispielsweise tel:+555 1234 5678
oder file://server/file.docx
). Diese Links werden als „Nicht unterstützt“ markiert und sollten bei Bedarf manuell gecheckt werden. Unterstützte URL-Schemas sind http
, https
, data
und mailto
.
Im nächsten Schritt übersetzt unser Crawler den in der URL enthaltenen Domainnamen (sofern verfügbar) in eine IP-Adresse. Dafür fragt er beim zuständigen DNS-Server den A- (IPv4) oder AAAA-Eintrag (IPv6) für die Domain ab. Wenn keine Einträge vorhanden sind oder der Nameserver nicht rechtzeitig antwortet, wird der Fehler „Server nicht gefunden“ ausgegeben.
Nachdem nun die IP-Adresse bekannt ist, wird eine TCP-Verbindung zum Server hergestellt. Hierbei können zwei mögliche Fehler auftreten: ein „Verbindungsfehler“, wenn der Verbindungsversuch fehlschlägt, oder eine „Zeitüberschreitung“, sofern sich die Verbindung nicht innerhalb von 40 Sekunden aufbauen lässt.
HTTPS-Links müssen vier wichtige Kriterien erfüllen: Erstens muss der Server ein gültiges SSL-Zertifikat zurückliefern. Zweitens muss dieses von einer vertrauenswürdigen Zertifizierungsstelle stammen. Drittens darf es nicht abgelaufen sein und viertens muss es tatsächlich zum jeweiligen Domainnamen gehören. Unterstützt der Webserver lediglich veraltete und unsichere Protokolle und Verschlüsselungen (wie SSLv2 oder SSLv3), wird ein „SSL-Verbindungsfehler“ ausgegeben.
Empfängt der Crawler eine Antwort vom Server, überprüft er zunächst den HTTP-Statuscode: Werte im Bereich 2xx
und 3xx
deuten auf eine erfolgreiche Anfrage hin, während andere Werte als Fehler interpretiert werden. Die häufigsten HTTP-Statuscodes sind 200
(OK), 301
(Permanente Weiterleitung), 302
(Temporäre Weiterleitung), 403
(Zugriff verweigert), 404
(Nicht gefunden) und 500
(Server-Fehler). Weiterleitungsketten, also Verkettungen von aufeinander verweisenden Links, dürfen bis zu 15 Einträge umfassen, bevor der Vorgang mit dem Fehler „Zu viele Weiterleitungen“ abgebrochen wird.
Liefert der Webserver ein HTML- oder CSS-Dokument aus, analysiert der Crawler den Quelltext und reiht die dort gefundenen Links in eine Warteschlange ein. Es werden dabei nicht nur "normale" Links der Art <a href>
berücksichtigt, sondern auch URLs aus <link href>
, <script src>
, <iframe src>
und zahlreichen weiteren HTML-Tags und CSS-Attributen extrahiert.
Probiere Dr. Link Check selbst einmal aus und prüfe, wie viele tote Links Deine Website hat.