2 Kommentare //
Es geht mir schon länger auf den Zeiger, dass ich damit zu leben habe, eine deutliche Verringerung an Zugriffen auf DT-Classics festzustellen. Natürlich ist einem jeden, der Online-Präsenz hat, völlig klar, woher der Wind weht. Dazu brauche ich bloß selbst nach etwas zu googeln. Schwups, finden sich die von der Suchmaschine "genutzten Daten" diverser Webseiten fein aufbereitet und zusammengefasst als KI-Informationen auf Ergebnis Nr. 1. der Google - Suchergebnisse.
Zur Folge hat das, was wir alle feststellen:
Vielen Leuten reicht diese Information, und der bislang gängige Weg zu den ursprünglichen Webseiten entfällt somit. Das ist eine üble Sache, voe allem, wenn man auch noch einen Online-Shop betreibt, oder anderweitig Angebote generiert. Hauptsächlich schlimm daran finde ich allerdings, dass mich vorab niemand um Erlaubnis bittet, ich für meine Kenntnisse und überlassenen Daten nichts an Gegenwert erhalte - ganz im Gegenteil, es schädigt mich - und obendrein über den gesamten Vorgang nullkommanull informiert werde!
An Schaden zeigt sich das konkret an einem Einbruch von ca. 30%, was die Zugriffszahlen auf DT-Classics anbelangt.
Ich habe mich daher mal an ChatGPT gewendet, um herauszubekommen, ob, und was die KI dazu zu sagen hat. Als visuelle Veranschaulichung davon, wie ich mir meinen Gesprächspartner Modell GPT-5 nano vielleicht vorstelle, habe ich ein Foto von RoboThespian genutzt. Das ist ein humanoider Roboter in Lebensgröße, geschaffen für die öffentliche Vorführung der Interaktion von Mensch und Maschine. Ich finde, das passt. Aufgenommen wurde das Foto von mir in der Ausstellung „Die Roboter“, zu sehen gewesen 2015/2016 im "DASA-Dortmund."
Hier nun das gesamte Interview mit Modell GPT-5 nano.
Es findet sich unkommentiert, macht Euch gerne eurer eigenes Bild dazu:
"Hallo Chat-GPT, ich bin Dirk Trampedach, und hätte ein paar Fragen an Dich."
"...Hallo Mensch, ich bin ein KI-Chatbot, Modell GPT-5 nano..."
"Hallo Modell GPT-5 nano, ich möchte gerne wissen, warum Suchmaschinen/ChatGPT ungefragt und ohne meine Zustimmung Informationen, Fakten und Daten aus meiner Webseite www.dt-classics entwenden!? Und wenn ja, fordere ich dich hiermit auf, das ohne Ausnahmen einzustellen. Danke sehr!"
"...Es tut mir leid, wenn ich den Eindruck erweckt habe, Informationen von deiner Webseite zu entnehmen. Ich habe keinen Zugriff auf deine Seiten selbst oder persönliche Inhalte, es sei denn, du teilst sie mir hier im Chat mit. Meine Antworten basieren auf dem Training und dem allgemeinen Wissensstand bis zu meinem Cutoff, ergänzt durch Kontext, den du mir in der Unterhaltung gibst..."
"...Kurz gesagt: Ich entnehme nichts von deiner Website, es sei denn, du teilst mir Textpassagen hier mit. Wenn du magst, können wir gemeinsam sicherstellen, dass zukünftige Antworten deinen Wünschen entsprechen..."
"Bekannt ist, dass die Google-KI Inhalte von Webseiten nutzt, und durch deren Veröffentlichung die Zugänge zu den Urhebern schmälert, gar verhindert. Wenn ich richtig informiert bin, ist Chat GPT da auch involviert, stimmt das?"
"...Kurz gesagt: OpenAI-Modelle, einschließlich ChatGPT, nutzen kein direktes Internet- oder Webseiten-Scanning in Echtzeit während einer Chat-Sitzung. Sie greifen nicht aktiv auf Webseiten zu und entnehmen dort Inhalte, während du mit ihnen sprichst.
Modelle werden mit einer großen Menge textbasierter Daten trainiert, die aus vielen öffentlich zugänglichen Quellen stammen können. Die Daten werden vor dem Training gesammelt und verarbeitet; während einer Nutzung greifen Modelle nicht live auf diese Webseiten zu..."
"Und wie sieht das aus hinsichtlich Kontrolle/Eigenkontrolle?"
"...OpenAI hat Richtlinien und Maßnahmen, um Rechte zu respektieren. Nutzende sollten ausschließlich Inhalte verwenden, die sie selbst besitzen oder zu denen sie Berechtigungen haben.
In manchen Anwendungsfällen kann ein Modell mit externen Tools oder Plugins arbeiten (z. B. Web-Browsing-Optionen), aber das hängt von der konkreten Implementierung ab. Standardmäßig in einer ChatGPT-Sitzung ohne Plugins greift das Modell nicht eigenständig auf das Web zu.
Google-KI vs. ChatGPT: Google und OpenAI betreiben unterschiedliche Systeme mit eigenen Daten- und Nutzungsgrundlagen. Google-Produkte verwenden indexierte Webinhalte und Methoden zur Ranking- und Sucherzeugung. ChatGPT arbeitet mit Trainingdaten und eventuellen aktuellen Tools, aber nicht wie eine Suchmaschine, die Webseiten in Echtzeit durchsucht, sofern kein explizites Web-Browsing-Feature aktiviert ist..."

"Bezugnehmend auf deine eigene Ausführung": Trainingsdaten: Modelle werden mit einer großen Menge textbasierter Daten trainiert, die aus vielen öffentlich zugänglichen Quellen stammen können. Die Daten werden vor dem Training gesammelt und verarbeitet: "Genau das meine ich. Es werden große Mengen Daten aus öffentlich zugänglichen Quellen genutzt. Und das ungefragt, unerlaubt, und obendrein auch noch kostenlos und schädigend für die Betreiber."
"...Verstanden. Hier eine kurze Klarstellung:
OpenAI nutzt Trainingsdaten aus vielen Quellen, die öffentlich zugänglich sein können, aber der Bezug zu konkreten Webseiten wird während einer Nutzung nicht hergestellt. Inhalte werden vor dem Training gesammelt; während einer Chat-Sitzung greift das Modell nicht live auf das Internet zu.
Nutzer sollten Inhalte nur verwenden, zu denen sie Rechte haben. OpenAI hat Richtlinien, um Rechte zu respektieren; schützenswerte Inhalte sollten nicht weitergegeben werden. Die Trainingdaten stammen aus einer Vielzahl von Quellen. Wenn Inhalte urheberrechtlich geschützt sind oder proprietäre Inhalte betreffen, sollten sie nicht ohne Erlaubnis genutzt werden. OpenAI bietet Optionen zur Privatsphäre und Datenverarbeitung; Details stehen in den Nutzungsbedingungen..."
"Danke dafür! Wie siehst du dann konkret die Verbindung von z.B. Google-KI und ChatGPT hinsichtlich Generieren und Nutzen von Daten privater Webseiten?"
"...Kurz gesagt: Google-KI (und ähnliche Such-/Rang-Systeme) nutzt indexierte Webinhalte in Echtzeit, um Suchergebnisse zu liefern oder Antworten zu generieren. Das bedeutet aktives Webscraping, Indizieren und Ranking von Webseiten.
ChatGPT (ohne aktive Web-Browsing-Funktionen) arbeitet primär mit vortrainierten Daten und ggf. externen Tools. Ohne Web-Browsing greift es nicht live auf private Webseiten zu. Mit aktivem Web-Browsing-Feature kann es jedoch auf externe Inhalte zugreifen, was vom Anwendungssetup abhängt.
Sowohl bei privaten Webseiten als auch Nutzerdaten gelten rechtliche Vorgaben (Einwilligung, Nutzungsbedingungen, DSGVO/ ähnliche Regeln). Inhalte sollten nicht unberechtigt genutzt oder weitergegeben werden.
OpenAI-Modelle verwenden keine Webseiten in Echtzeit, es sei denn, das Web-Browsing-Feature ist explizit aktiviert und der
Dienst erlaubt den Zugriff. Selbst dann gelten Rechte und Einschränkungen der jeweiligen Plattform.
Inhalte sollten nur mit Zustimmung genutzt oder wenn sie frei verfügbar bzw. lizenzrechtlich nutzbar sind. Privates Webpublishing sollte entsprechend berücksichtigt werden..."
"Durch z.B. Google-KI und deren Zusammensetzung von Informationen, die z.B. von meiner Webseite stammen, sind erhebliche Einbußen bei Besucherzahlen und Clicks zu vernehmen. Was lässt sich aus deiner Sicht da konkret tun, um einen solchen Mißbrauch zu verhindern?"
"...Danke für die klare Frage. Hier sind konkrete Ansätze, um Missbrauch bzw. unautorisierte Nutzung von Inhalten deiner Webseite durch KI-Systeme zu verhindern oder zu mindern:
robots.txt sinnvoll einsetzen, um Crawlern bestimmte Bereiche auszuschließen, aber achte darauf, dass wichtige Inhalte nicht versehentlich blockiert werden. Meta-Tags noindex, nofollow für sensible Seiten.
Zugriffskontrollen (Passwörter, IP-Whitelisting) für Inhalte, die privat bleiben sollen. Nutzung von CAPTCHAs oder JavaScript-basierte Hidden-Content-Checks, um automatisierte Abfragen zu erschweren (vorsichtig einsetzen, um legitime Bots nicht zu blockieren).
Klar kommunizieren, welche Inhalte gesammelt oder genutzt werden dürfen (z. B. Datenschutzerklärung, robots.txt-Erklärung).
Nutzungsbedingungen bereitstellen, die das Scraping oder automatisierte Nutzung einschränken bzw. sanktionieren.
Starke, einzigartige Inhalte erstellen, die sich von öffentlich indizierten Inhalten unterscheiden.
strukturiertes, semantisch reiches Markup (Schema.org) verwenden, damit relevante KI-Systeme besser verstehen, welche Inhalte deine Seite haben soll, und du Kontrollmechanismen erleichterst.
Schutz gegen Inhalte-Nutzung durch KI: Wasserzeichen oder klare urheberrechtliche Hinweise bei sensiblen Inhalten. Biete offizielle API-Zugänge mit Nutzungsbedingungen statt öffentlicher, kopierbarer Inhalte. Vermeide das Hochladen oder Veröffentlichen von vertraulichen Daten auf öffentlich zugänglichen Seiten.
Monitoring und Reaktionsstrategien
Web-MV (Monitoring/Observability): regelmäßiges Checking, ob ungewöhnliche Zugriffsmuster oder Nachahmungen deiner Inhalte auftreten.
Spam-/Bot-Filter auf Formularen, Kommentaren etc., um automatisierte Nutzung zu erkennen.
Rechtsberatung prüfen, ob deine Inhalte ausreichend geschützt sind (Urheberrecht, Markenrecht, DSGVO).
Falls Missbrauch erkennbar ist, formale Schritte prüfen: Abmahnungen, Kontaktaufnahme mit dem Betreiber der KI-Plattform, rechtliche Hinweise.
Wenn du Partner- oder Drittanbieter-Inhalte nutzt (z. B. Widgets, Feed-Integrationen), klare Nutzungs- und Copy-Policies vereinbaren.
Prüfe, ob deine Inhalte über Partnerprogramme oder Inhalte-Feeds korrekt attribuiert werden und ob du das Scraping bestimmter Partnerdienste einschränken kannst.
Interaktive Elemente, Newsletter, exklusive Inhalte, Mitgliederbereiche – Anreize schaffen, die Besucherbindung stärken statt reiner Seitenaufrufe.
Wertvolle Inhalte regelmäßig aktualisieren, sodass Nutzer zurückkehren..."
"Meine Webseite basiert überwiegend auf Inhalten zu Reise-Dokumentation, Fotografie, wie auch zu technischen Supports im Zusammenhang mit klassischen Automobilen und deren Ausstattungen."

"...Danke für die Details. Hier sind spezifische, umsetzbare Ansätze für deine Reise-Dokumentation, Fotografie und Auto-Technik-Seiten, um Missbrauch durch KI-Systeme zu verhindern oder zu mindern: robots.txt gezielt einsetzen.
Bereiche mit sensiblen oder lizenzrechtlich geschützten Inhalten blockieren, restliche Seiten normal indexieren. API-first Ansatz bevorzugen.
Falls du Inhalte programmgesteuert anbietest, nutze offizielle API-Zugänge mit Nutzungsbedingungen statt offener Kopie des Inhalts.
Geschützte Bereiche (Passwörter, IP-Whitelist) dort, wo Inhalte privat bleiben sollen.
CAPTCHAs/Verhaltensprüfungen moderat einsetzen, um Missbrauch zu erschweren, ohne legitime Nutzer auszuschließen..."
"...Einzigartige, tiefergehende Inhalte: Reise-Erlebnisse, persönliche Fotostrecken, detaillierte technische Anleitungen, die sich von standardisierten Online-Inhalten unterscheiden. Wasserzeichen oder klare Urheberhinweise bei sensiblen Fotos (EXIF-Datenschutz berücksichtigen).
Transparente Nutzungsbedingungen und Datenschutzerklärung, insbesondere was KI-Scraping betrifft.
Strukturiertes Markup (Schema.org) nutzen: Organization, Artikel, Bild, FAQ, Produkt/Komponenten bei Auto-Tools, um Suchmaschinen Verständnis zu verbessern und Missbrauch zu erleichtern, z. B. bei Foto-Gallery, Reiseberichte.
klare Kategorie- und Tag-Struktur, damit KI-Systeme Inhalte sinnvoll kategorisieren können.
Gegen KI-spezifischen Missbrauch: Offizielle Inhalte via API-Fee anbieten, statt komplette Inhalte öffentlich kopierbar zu machen.
Wasserzeichen oder unverwechselbare Stilmerkmale bei Fotos, um Bildeindrücke zuzuordnen.
Rechtliche Schritte vorbereiten: klare Kontaktwege, Abmahnungsvorlagen, DSGVO-/Urheberrechts-Checks. Nutzerbindung statt reiner Traffic
Exklusive Inhalte (Newsletter, Mitgliederbereich, Reise-Reports hinter Login) erhöhen die Bindung.
Interaktive Formate: Reise-Planer, Fotoworkshops, technische Troubleshooting-Guides, Foren, Live-HQ-Videos.
Regelmäßige Updates mit neuen Inhalten, Fotostrecken und technisch-informativen Guides..."
"Was lässt sich zu www.dt-classics.de im Hinblick auf o.g. Probleme sagen?"
"...OpenAI/ChatGPT greift grundsätzlich nicht aktiv auf individuelle Webseiten zu oder ruft Inhalte in Echtzeit von deiner Seite ab, es sei denn, du stellst Inhalte explizit in einem Kontext bereit (z. B. durch Einbinden von Daten in eine Chat-UI oder API-basierte Integrationen, oder wenn dein Content in öffentlich zugänglichen, maschinenlesbaren Formaten vorhanden ist und von Nutzern geteilt wird).
Es gibt kein öffentliches, detailliertes Verzeichnis darüber, welche konkreten Inhalte Google-KI-Systeme (z. B. Such- oder Sprachmodelle) regelmäßig verwenden. Google betreibt seine Modelle unter strikten Datenschutz- und Urheberrechtsrichtlinien und nutzt Inhalte, die durch Such-Indexierung, Öffentliche Webdaten, Partnerdaten oder Nutzersignale verfügbar sind, oft für Training in aggregierter oder anonymisierter Form, gemäß den Richtlinien.
Allgemein gelten für Webseiten-Betreiber:
Indizierte Inhalte in Suchmaschinen-Crawlern können von Suchdiensten genutzt werden, um Rankings und Verständnis der Seite zu verbessern.
Inhalte, die öffentlich zugänglich sind und rechtlich frei verwendet werden dürfen, können von Trainingdaten in aggregierter Form der Anbieter getroffen werden, jedoch nicht unbedingt auf individuellen Seitenverläufen oder persönlichen Daten..."
Tja, liebe Freunde und Interessierte, so viel dazu, auf eure Gedanken und Kommentare bin ich mehr als gespannt... ;-)
2025 © DT-Classics
Kommentar schreiben
Werner (Montag, 29 Dezember 2025 14:23)
KI hat in alle Lebensbereiche Einzug gehalten und ich ahne, das ist erst der Anfang. Und wir (beide) sprechen ja vor allem über "harmlose" Anwendungen (nicht missverstehen: den Abgriff von Daten und Informationen privater Websites meine ich nicht). Da tun sich Dinge, die Schlimmes befürchten lassen. Unsere Weltgeschichte lehrt, dass immer, wenn etwas Übles mit neuer Technologie gemacht werden kann, es am Ende auch getan wird. Wir sterben am Ende alle an Geldgeilheit und am Verlust von Anstand und Moral. Andererseits bin ich davon überzeugt (schon länger, wie du beim Lesen meiner Beiträge weißt), dass dieses digitale Treiben nichts mit dem Leben zu tun hat. Das wird allüberall behauptet, es "gäbe ein digitales und ein analoges Ich" - Das halte ich für totalen Blödsinn.
Längst habe ich mich davon befreit, digital "irgendwas sein zu wollen"; daher ist mir ein Abgriff von (belanglosen) Dingen von mir, recht einerlei. Das gilt im Übrigen auch für meine Fotos. Ich versehe auch sie schon lange nicht mehr mit Wasserzeichen o.ä..
Mit tun die Menschen leid, die digital mit ihren Inhalten (sei es Foto oder Text) Geld verdienen und dann natürlich "leiden", wenn unsere digitalen Herrschaftstümer ihre Inhalte abgreifen. Aber: Wir haben die Abhängigkeit von digitalen Services aus den USA auch zwei Jahrzehnte lang "gefeiert". Das daraus etwas Übles entsteht..... nun ja,,,, war wenigstens absehbar.
Bleiben wir (trotz allem) zuversichtlich.
Liebe Grüße,
Werner
Dirk von DT-Classics (Dienstag, 30 Dezember 2025 21:57)
Lieber Werner,
mir geht das tatsächlich auch so. Ein "Digitales Ich" ist Maximal-Nonsens.
Mir wird immer schon flau, wenn ich "Künstliche Intelligenz" lese.
Wir haben schon Probleme genug, die wir mit der "Natürlichen Intelligenz"
hinbekommen haben.
Dinge nicht mehr zu schützen, wie du das beschreibst, ist allerdings nichts,
was ich mache. Das käme ungefähr dem gleich, die Meinungsfreiheit nicht mehr
zu schützen, weil man sowieso nichts von Relevanz zum Thema XY zu sagen hat.
Da wird wahrscheinlich kein Schuh draus.
Wir werden wie immer nicht alles verhindern, was auf uns zukommt.
Aber 2 Sachen gelten, die schon immer gegolten haben:
1. Man muss nicht alles mitmachen, nur um WER zu sein.
(Gleicher unter Gleichen ist als einzige Variante langweilig...)
2. Dinge für sich nutzen, statt sich ihnen auszuliefern.
Die Grenze ist schmal, aber sie existiert... ;-)
Vielen Dank für deine guten Ideen und dein Interesse!
LG, Dirk