Welche Arten von Links findet und prüft Dr. Link Check?

Dr. Link Check findet Links in HTML-Dokumenten (innerhalb von HTML-Tags wie beispielsweise <a>, <area>, <frame>, <iframe>, <img>, <script>, <audio> und <video>) und CSS-Dateien (@import und url(...)). Der Crawler ist nicht in der Lage, JavaScript-Code auszuführen und nach Links in Seiten zu suchen, die im Browser dynamisch per JavaScript generiert werden.

Unterstützte URL-Schemas sind http, https, data und mailto. Links mit den Schemas http und https prüft der Crawler, indem er eine Verbindung zum Zielserver herstellt und das verlinkte Dokument abruft. data-URLs werden auf Syntaxfehler geprüft und bei mailto-Links erfolgt ein Test, ob die Domain der E-Mail-Adresse tatsächlich existiert und über MX-Einträge verfügt.


Wie viele Websites kann ich prüfen lassen?

Die maximale Anzahl an Projekten, die Du in Dr. Link Check anlegen kannst, ergibt sich aus dem von Dir gewählten Paket (5 im Standard-Paket, 10 im Professional-Paket, etc.). Du kannst jedoch jederzeit bestehende Projekte löschen und dadurch wieder Raum für neue schaffen. Dies ermöglicht Dir, beliebig viele Websites prüfen zu lassen.

Die einzige Einschränkung besteht darin, dass sich nicht mehrere Websites gleichzeitig prüfen lassen. Stößt Du den Check einer weiteren Website an, wird dieser zunächst in die Warteschlange eingereiht und erst dann ausgeführt, wenn der vorherige Check abgeschlossen ist.


Wieso wird ein Problem gemeldet, obwohl der Link in meinem Browser problemlos funktioniert?

Manchmal sind Probleme nur vorübergehender Natur, beispielsweise weil der Zielserver kurzzeitig überlastet war oder zum Zeitpunkt des Checks eine Netzstörung vorgelegen hat. Meldet Dr. Link Check beispielsweise „Zeitüberschreitung“, „Verbindungsfehler“, „Sende-/Empfangsfehler“ oder einen HTTP 5xx-Serverfehler, ist dies nicht selten ein Problem, das sich mit der Zeit von selbst erledigt.

Zudem kann es vorkommen, dass Webserver Zugriffe von unseren Servern blockieren. Beispielsweise lehnen die Server der Plattform LinkedIn sämtliche Zugriffe aus der Amazon-Cloud (wo sich unsere Server befinden) mit der Antwort „999 Request Denied“ ab. Viele Server begrenzen zudem die Anzahl an Anfragen, die von einer IP-Adresse aus innerhalb einer festgelegten Zeitspanne erfolgen dürfen, und blockieren oder verlangsamen weitere Anfragen nach Erreichen eines bestimmten Limits. Dies spiegelt sich häufig in den HTTP-Statuscodes 429 (Too Many Requests), 403 (Forbidden) oder 503 (Service Unavailable) wider.

Einige Server senden zudem im HTTP-Header einen Fehlercode, im HTTP-Body jedoch eine normale Seite ohne jeglichen Hinweis auf ein Problem. Dies lässt sich häufig auf ein Konfigurationsproblem des Webservers oder des Content Management Systems zurückführen.


Warum werden nur wenige Links gefunden, obwohl meine Website eigentlich viel größer ist?

Findet unser Crawler nur einen Bruchteil der Links, ist dies in der Regel auf eine der folgenden Ursachen zurückzuführen:

  • Die Website verwendet JavaScript, um Links dynamisch im Browser zu generieren. Da unser Crawler JavaScript-Code nicht ausführt, kann er diese Links nicht finden und weiter verfolgen. Wenn die Website über eine XML-Sitemap (sitemap.xml) verfügt, kannst Du als Behelfslösung die URL dieser Sitemap als Ausgangspunkt für den Check verwenden. Dies ist zwar nicht ideal, stellt aber zumindest sicher, dass die in der Sitemap enthaltenen Links geprüft werden.
  • Der Zielserver blockiert die Anfragen unseres Crawlers. Dies erfolgt oft durch Sicherheitssysteme, die automatisierte Zugriffe verhindern sollen. Wir sehen dies häufig bei Websites, die Content Delivery Networks (CDNs) nutzen, etwa Akamai oder Cloudflare. Nicht selten sind es auch Security-Plugins wie Wordfence und Sucuri, die das Crawlen der Seiten verhindern. Wie empfehlen in diesen Fällen, die IP-Adressen unserer Crawler im jeweiligen Sicherheitssystem explizit zu erlauben bzw. freizuschalten (die Liste der IP-Adressen schicken wir Dir bei Bedarf gern zu).
  • Die robots.txt-Datei der Website verbietet das Crawlen der Links. Soll unser Crawler sich nicht an die in der robots.txt-Datei gefundenen Allow-/Disallow-Anweisungen halten, aktiviere die Ignoriere robots.txt-Option in den Projekteinstellungen.
  • Der Zielserver war vorübergehend nicht erreichbar. In seltenen Fällen kann es vorkommen, dass die Anfragen unseres Crawlers einen Webserver überlasten und für einen kurzen Zeitraum lahmlegen. Sollte dies bei Deinem Server der Fall sein, schick uns eine kurze Nachricht und wir setzen die Geschwindigkeit des Crawlers für Dein Projekt entsprechend herab.
  • Die von Dir vorgenommenen Einstellungen Zu crawlende URLs und Links ignorieren, wenn … schließen mehr Links aus als eigentlich beabsichtigt. Überprüfe Deine Projekteinstellungen und frag im Zweifel einfach bei uns nach – wir helfen gern.

Warum werden so viele Links gefunden, obwohl meine Website eigentlich viel kleiner ist?

Manche Websites erzeugen eine scheinbar nicht enden wollende Anzahl an neuen Links – ein Phänomen, das im Englischen als Crawler Trap bezeichnet wird. Ein typisches Beispiel ist ein Online-Shop, in dem sich Produkte nach Kategorie, Preis, Marke, Farbe und anderen Merkmalen beliebig filtern und sortieren lassen. Erhält dabei jede Filter-Kombination eine eigene URL, resultiert dies leicht in Hunderttausenden, wenn nicht Millionen unterschiedlichen Links. Ein weiteres häufig anzutreffendes Beispiel sind Online-Kalender, die Besucher unendlich weit in die Zukunft navigieren lassen und dabei für jede Kalenderseite eine neue URL generieren.

Um ein solches Problem aufzudecken, öffne den Alle Links-Report und lass Dir durch einen Klick auf Letzte Seite die zuletzt gefundenen Links anzeigen. Siehst Du hier eine Reihe ähnlicher URLs, die sich lediglich im Query-String (nach dem Fragenzeichen) oder einem Pfad-Segment unterscheiden, ist dies ein ersten Anzeichen für eine Crawler Trap.

Hast Du die problematischen URLs identifiziert, kannst Du sie auf eine der folgenden Weisen vom Check ausschließen:

  • Ergänze die robots.txt-Datei der Website um eine Disallow-Anweisung, beispielsweise Disallow: /search. Unser Crawler hält sich an diese Regel, sofern nicht die Option Ignorierte robots.txt in den Projekteinstellungen aktiviert ist.
  • Füge den Links der Website das HTML-Attribut rel="nofollow" hinzu.
  • Gib unter ProjekteinstellungenErweiterte EinstellungenLinks ignorieren, wenn … eine Regel ein, beispielsweise Url STARTSWITH "https://example.com/search".

Kann ich eine Liste mit Links/URLs prüfen lassen?

Beim Anlegen eines neuen Projekts kannst Du bis zu 10.000 URLs in das Feld Zu überprüfende URL(s) eintragen:

Zu überprüfende URLs


Kann ich Websites prüfen lassen, die einen Login erfordern?

Unser Crawler unterstützt die Anmeldung per HTML-Formular sowie verschiedene andere Authentifizierungsmethoden (HTTP Basic, HTTP Digest, Bearer Token). Diese Funktionalität ist jedoch bislang nicht in die Benutzeroberfläche integriert, sondern muss von uns manuell konfiguriert werden. Falls Du das Professional- oder Premium-Paket nutzt, setze Dich mit uns in Kontakt und wir nehmen gern die entsprechenden Änderungen an Deinem Projekt vor.


Wie stark belastet ein Check meinen Server?

Standardmäßig führt der Crawler maximal vier gleichzeitige Anfragen pro Zielserver aus und begrenzt die Frequenz der Anfragen auf acht pro Sekunde. Moderne Webbrowser öffnen hingegen typischerweise sechs (Chrome, Firefox) oder mehr (Internet Explorer) Verbindungen zu einem Host und belasten einen Server häufig stärker, als Dr. Link Check es tut.

Solltest Du trotzdem den Verdacht haben, dass unser Crawler Deinen Server zu stark fordert und eventuell sogar überlastet, schreib uns eine Nachricht und wir werden die Crawl-Geschwindigkeit für Dein Projekt entsprechend heruntersetzen.


Welchen Einfluss hat der Crawler auf Google Analytics?

Unser Crawler ignoriert den JavaScript-Code von Google Analytics. Ein Check hat somit keinen Einfluss auf die erhobenen Daten.


Wie kann ich ausschließlich ausgehende Links checken lassen?

Eine Begrenzung des Checks auf ausgehende/externe Links ist leider nicht möglich. Der Crawler muss zunächst die internen Links sammeln und prüfen, um letztlich die Links zu finden, die auf externe Websites verweisen.

Wenn Du jedoch die Anzahl gefundener Links reduzieren möchtest und Dich lediglich „normale“ Hyperlinks (wie <a href="seite.html">Link</a>) interessieren, kannst Du andere Links (wie beispielsweise Bildverweise) über eine Regel ausschließen. Öffne dazu die Projekteinstellungen und gib unter Erweiterte EinstellungenLinks ignorieren, wenn … Folgendes ein:

HtmlElement != "a"


Wie kann ich Bild-URLs vom Check ausschließen?

Um Links vom Check ausschließen, füge Deinem Projekt eine Ignorierregel hinzu (unter ProjekteinstellungenErweiterte EinstellungenLinks ignorieren, wenn …).

Mit Hilfe der folgenden Regel werden Bild-URLs anhand ihrer Dateiendung identifiziert und von der Überprüfung ausgeschlossen:

Path ENDSWITH ".jpg" OR Path ENDSWITH ".png" OR Path ENDSWITH ".gif" OR Path ENDSWITH ".svg" OR Path ENDSWITH ".webp"


Hat mein Vertrag eine Mindestlaufzeit? Kann ich den Vertrag auf einen Monat begrenzen?

Der Vertrag ist monatlich kündbar. Wie empfehlen zwar, Dr. Link Check langfristig zu nutzen und Websites regelmäßig monatlich oder wöchentlich automatisch prüfen zu lassen. Trotzdem ist es möglich, den Dienst lediglich für einen kurzen Zeitraum einzusetzen und den Vertrag nach dem ersten Monat auslaufen zu lassen.

Wenn Du bereits sicher bist, dass Du Deinen Vertrag im nächsten Monat nicht mehr benötigen wirst, gehe zu KontoVertragseinstellungen und klicke auf Vertrag kündigen. Nach der Kündigung steht Dir bis zum Ende des laufenden Abrechnungszyklus weiterhin die volle Funktionalität zur Verfügung.


Kann ich auf Rechnung bezahlen?

Eine Bestellung und Bezahlung auf Rechnung ist leider nicht möglich. Zahlungen können derzeit ausschließlich per Kreditkarte oder PayPal erfolgen.


Wo finde ich meine Rechnungen?

Bei jeder Zahlung erhältst Du eine E-Mail mit einem Link zur entsprechenden Rechnung. Zudem kannst Du die Rechnungen auch unter KontoVertragseinstellungenZahlungshistorie finden.


Wieso ist die ausgewiesene Rechnungsmenge größer als 1?

Die Abrechnung erfolgt pro 10.000 Links. Wenn mit Deinem Vertrag beispielsweise Websites mit bis zu 20.000 Links geprüft werden können, wird „2“ als Rechnungsmenge ausgewiesen („Quantity: 2“).


Warum kann ich lediglich 1.500 Links prüfen, obwohl ich für ein größeres Paket bezahlt habe?

Du bist wahrscheinlich nicht im richtigen Konto angemeldet. Vermutlich nutzt Du gerade einen temporären Account, der automatisch angelegt wurde, nachdem Du einen Check über die Startseite angestoßen hast.

Bitte wähle KontoAbmelden und logge Dich mit E-Mail-Adresse und Passwort neu ein.


Wie kann ich meinen Vertrag kündigen?

Eine Kündigung ist möglich über KontoVertragseinstellungenVertrag kündigen.


Was kann ich tun, wenn meine Frage hier nicht beantwortet wurde?

Du kannst uns jederzeit per E-Mail oder Kontaktformular erreichen. Wir helfen gern!