Echte Beispiele für KI-Datenlecks und wie man sie verhindert

Von geleaktem Quellcode bis hin zu offengelegten Chat-Verläufen — KI-Datenvorfälle sind häufiger, als die meisten Menschen denken. Hier sind die Fälle, die die heutige KI-Datenschutzlandschaft geprägt haben.

KI-Chatbots wie ChatGPT, Claude und Gemini sind zu unverzichtbaren Produktivitätswerkzeugen geworden. Doch ihre rasante Verbreitung hat das Sicherheitsbewusstsein vieler Nutzer und Organisationen überholt. Das Ergebnis: eine wachsende Liste realer Datenlecks, Datenschutzverletzungen und peinlicher öffentlicher Vorfälle, die als warnende Beispiele für alle dienen, die mit KI arbeiten.

Gehen wir die bedeutendsten KI-Datenvorfälle durch, verstehen wir, was in jedem Fall schiefgelaufen ist, und betrachten wir praktische Schritte, die Sie ergreifen können, um ähnliche Probleme zu vermeiden.

Samsungs Quellcode-Leak an ChatGPT

Anfang 2023 fügten Samsung-Ingenieure proprietären Quellcode und interne Sitzungsnotizen direkt in ChatGPT ein, um bei der Fehlersuche und Zusammenfassung ihrer Arbeit Hilfe zu bekommen. Innerhalb weniger Wochen wurden mindestens drei separate Vorfälle bekannt, bei denen vertrauliche Halbleiterdaten in den Chatbot eingegeben wurden.

Das Problem war grundlegend: Alles, was in ChatGPT eingegeben wurde, konnte zum Training zukünftiger Modelle verwendet werden — das bedeutete, dass Samsungs Geschäftsgeheimnisse möglicherweise in OpenAIs Trainingsdaten aufgenommen wurden. Samsung reagierte mit einem vollständigen Verbot von ChatGPT und begann mit der Entwicklung eines internen KI-Tools, aber der Schaden war bereits angerichtet. Die geleakten Daten konnten nicht mit Sicherheit aus OpenAIs Systemen zurückgerufen oder gelöscht werden.

Anwälte zitieren fiktive KI-generierte Urteile

Mitte 2023 machte der New Yorker Anwalt Steven Schwartz Schlagzeilen, weil er einen juristischen Schriftsatz einreichte, der sechs Gerichtsurteile zitierte — von denen keines existierte. Er hatte ChatGPT für die Rechtsrecherche genutzt und den Ergebnissen ohne Überprüfung vertraut. Die erfundenen Zitate enthielten realistisch klingende Fallnamen, Aktenzeichen und sogar plausible juristische Begründungen.

Obwohl dieser Vorfall in erster Linie ein Problem der KI-Halluzination ist, verdeutlicht er ein kritisches Nebenrisiko: Anwälte hatten vertrauliche Mandantendetails, Verfahrensstrategien und geschützte Kommunikation in ChatGPT eingefügt, um Schriftsätze zu entwerfen. Der Skandal um die Fake-Urteile zwang die Anwaltschaft, sich mit der Realität auseinanderzusetzen, dass sensible Mandantendaten ungeschützt in Drittanbieter-KI-Systeme flossen.

Die breiteren Auswirkungen auf den Rechtsbereich

Mehrere Anwaltskammern haben seitdem Richtlinien erlassen, die den Einsatz von KI-Tools durch Anwälte einschränken. Die meisten verlangen, dass Mandantendaten vor der Übermittlung an KI-Chatbots anonymisiert werden — eine Praxis, die ohne automatisierte Tools schwer durchzusetzen ist.

ChatGPT-Bug legt Chat-Verläufe von Nutzern offen

Im März 2023 verursachte ein Fehler in einer von ChatGPT verwendeten Open-Source-Bibliothek eine erhebliche Datenschutzpanne. Für mehrere Stunden konnten einige Nutzer Titel von Gesprächen anderer Nutzer in ihrer Seitenleiste sehen. OpenAI bestätigte das Problem und nahm ChatGPT vorübergehend offline, um es zu beheben.

Weitere Untersuchungen ergaben, dass die Auswirkungen des Bugs schlimmer waren als zunächst gemeldet. Bei einer Untergruppe von ChatGPT-Plus-Abonnenten wurden Rechnungsinformationen — einschließlich Namen, E-Mail-Adressen, Rechnungsadressen und der letzten vier Ziffern von Kreditkartennummern — anderen Nutzern offengelegt. OpenAI machte den Vorfall öffentlich und benachrichtigte die betroffenen Nutzer, aber das Ereignis zerstörte die Annahme, dass Chat-Daten isoliert und sicher seien.

Dieser Vorfall bewies, dass selbst wenn Sie der Datenschutzerklärung des KI-Anbieters vertrauen, Software-Fehler Ihre Daten jederzeit Fremden zugänglich machen können.

Italien verbietet ChatGPT wegen DSGVO-Bedenken

Im März 2023 wurde Italien zum ersten westlichen Land, das ChatGPT verbot. Die italienische Datenschutzbehörde (Garante) führte mehrere DSGVO-Verstöße an, darunter:

Keine Rechtsgrundlage für die massenhafte Erhebung und Verarbeitung personenbezogener Daten zum Training von ChatGPTs Algorithmen
Kein Altersverifizierungssystem, um Minderjährige am Zugang zum Dienst zu hindern
Ungenaue Informationen über Personen ohne Mechanismus zur Korrektur
Mangelnde Transparenz darüber, wie Nutzerdaten erhoben, gespeichert und verwendet wurden

OpenAI ging schließlich auf einige von Italiens Bedenken ein, und das Verbot wurde nach etwa einem Monat aufgehoben. Die Episode löste jedoch eine Welle regulatorischer Prüfungen in ganz Europa aus. Andere Datenschutzbehörden in Frankreich, Deutschland und Spanien leiteten eigene Untersuchungen ein, und der Vorfall beschleunigte die Entwicklung des EU AI Acts.

Lehren aus diesen Vorfällen

Über all diese Fälle hinweg zeigen sich mehrere gemeinsame Muster:

Nutzer unterschätzen das Risiko. Die meisten Menschen behandeln KI-Chatbots wie private Notizbücher. Das sind sie nicht. Jeder Prompt, den Sie senden, wird an Drittanbieter-Server übertragen, dort verarbeitet und möglicherweise gespeichert.
Unternehmensrichtlinien hinken der Verbreitung hinterher. Samsungs Ingenieure handelten nicht böswillig — sie hatten einfach keine Vorgaben zur Nutzung von KI-Tools. Als eine Richtlinie erstellt wurde, waren die Daten bereits geleakt.
Serverseitige Fehler liegen außerhalb Ihrer Kontrolle. Der ChatGPT-Verlauf-Bug wurde nicht durch Nutzerfehler verursacht. Selbst bei perfekter operativer Sicherheit können Plattform-Schwachstellen Ihre Daten offenlegen.
Die Regulierung holt auf, aber langsam. Die DSGVO bietet einen Rahmen, aber die Durchsetzung ist reaktiv. Sie können sich nicht darauf verlassen, dass Aufsichtsbehörden Ihre Daten in Echtzeit schützen.

Wie Sie KI-Datenlecks verhindern

Angesichts dieser Risiken — welche praktischen Schritte können Einzelpersonen und Organisationen unternehmen?

1. Vor dem Senden anonymisieren

Die wirksamste Präventionsmethode ist, sensible Daten aus Ihren Prompts zu entfernen, bevor sie Ihren Browser verlassen. Ersetzen Sie echte Namen, E-Mails, Telefonnummern, Adressen und Finanzdaten durch Platzhalter. Wenn die KI antwortet, tauschen Sie die Platzhalter wieder aus. So befanden sich Ihre tatsächlichen Daten selbst bei einer Datenpanne beim KI-Anbieter nie auf deren Servern.

2. Lokale Verarbeitung nutzen

Anonymisierungstools, die vollständig in Ihrem Browser laufen — ohne Daten an Zwischenserver zu senden — bieten die stärkste Garantie. Wenn sensible Daten Ihr Gerät nie verlassen, können sie nicht abgefangen, gespeichert oder geleakt werden.

3. Klare Nutzungsrichtlinien festlegen

Organisationen sollten festlegen, welche Arten von Daten in KI-Tools eingegeben werden dürfen und welche nicht. Quellcode, Kundendaten, Finanzunterlagen und interne Strategien sollten immer anonymisiert oder vollständig ausgeschlossen werden.

4. Prüfen und überwachen

Überprüfen Sie regelmäßig, wie Ihr Team KI-Tools nutzt. Achten Sie auf Muster, bei denen sensible Informationen unbeabsichtigt geteilt werden könnten, und beheben Sie diese, bevor daraus Vorfälle werden.

Schützen Sie Ihre Daten mit Private Prompt

Private Prompt ist eine Browser-Erweiterung, die sensible Daten in Ihren KI-Prompts automatisch erkennt und anonymisiert — bevor irgendetwas Ihren Browser verlässt. Keine Server, keine Konten, keine Datenerhebung. Ihre Informationen bleiben auf Ihrem Gerät.

Mehr über Private Prompt erfahren

Die oben genannten Vorfälle sind keine isolierten Einzelfälle. Sie repräsentieren eine systemische Lücke zwischen der Geschwindigkeit, mit der KI-Tools eingeführt werden, und der Langsamkeit, mit der sich Datenschutzpraktiken weiterentwickeln. Ob Sie Einzelnutzer sind oder Teil einer großen Organisation — jetzt ist die Zeit, KI-Datenschutz ernst zu nehmen, bevor Ihre Daten zum nächsten warnenden Beispiel werden.