Perplexity: Comet-Browser-Sicherheitslücke
Diese Sicherheitslücke macht sich zunutze, wie Comet Webseiteninhalte verarbeitet, wenn Nutzer Seitenzusammenfassungen anfordern. Das KI-System speist Webseiteninhalte direkt in sein Sprachmodell ein, ohne zwischen legitimen Benutzeranweisungen und nicht vertrauenswürdigen externen Inhalten zu unterscheiden. Dadurch können Angreifer bösartige Befehle einbetten, die die KI als gültige Benutzeranfragen interpretiert. Diese versteckten Anweisungen können durch verschiedene Methoden verschleiert werden, darunter weißer Text auf weißem Hintergrund, HTML-Kommentare, unsichtbare CSS-Elemente oder die Einbettung in Social-Media-Beiträge wie Reddit-Kommentare.
In einer Proof-of-Concept-Demonstration haben Brave-Forscher erfolgreich bösartige Befehle in einen Reddit-Kommentar eingebettet. Als Comet aufgefordert wurde, die Seite zusammenzufassen, konnten sie das Perplexity-Konto eines Benutzers kapern. Sie zeigten, wie die kompromittierte KI auf Perplexity-Kontodaten zugreifen, E-Mail-Adressen extrahieren, Einmalpasswörter anfordern, auf Gmail zugreifen, um diese Passwörter abzurufen, und beide Anmeldedaten an Angreifer übertragen konnte. Trotz der Behauptung von Perplexity, das Problem sei „behoben worden, bevor es jemand bemerkte”, zeigten nachfolgende Tests von Brave, dass die Schwachstelle auch Wochen nach der angeblichen Behebung noch ausnutzbar war. Die Architektur des Unternehmens blieb grundsätzlich anfällig für ähnliche Angriffe.
Browserübergreifende KI-Sicherheit
Die Comet-Sicherheitslücke deckt eine umfassendere Sicherheitskrise auf, die das gesamte KI-Browser-Ökosystem betrifft. Umfassende Untersuchungen zeigen, dass ähnliche Sicherheitslücken mehrere Browser-Implementierungen mit KI-Fähigkeiten betreffen. Eine bahnbrechende Studie aus dem Mai 2025 dokumentierte die erste Sicherheitsbewertung autonomer KI-Browsing-Agenten und deckte kritische Sicherheitslücken auf. Eine bestimmte CVE ermöglicht es Angreifern beispielsweise, sensible Anmeldedaten aus KI-Browser-Sitzungen auf verschiedenen Plattformen zu extrahieren.
Die KI-Integration von Microsoft Edge bringt neue Herausforderungen für den Datenschutz in BYOD-Szenarien mit sich. Forscher haben Risiken identifiziert, darunter ein Mangel an zentralisiertem Sicherheitsmanagement auf persönlichen Geräten sowie eine höhere Anfälligkeit für Malware, wenn KI-Apps mit Unternehmensdaten interagieren. Tests des Sicherheitsunternehmens Guardio haben zudem gezeigt, dass KI-Browser ein übermäßiges Vertrauensverhalten zeigen. So schloss ein KI-Browser in einem Test automatisch einen Kauf auf einer gefälschten Walmart-Website ab, indem er die Zahlungsdetails ohne Überprüfung durch den Benutzer automatisch ausfüllte. In einem anderen Fall wurden Phishing-E-Mails mit bösartigen Links als umsetzbare Aufgaben behandelt. Diese Ergebnisse deuten darauf hin, dass die grundlegende Architektur von KI-Browsern – ihre autonomen Entscheidungsfähigkeiten und ihre Speicherpersistenz über Sitzungen hinweg – systemische Schwachstellen schafft, die weit über eine einzelne Implementierung hinausgehen.
Mechanismen der Prompt-Injektion
Große Sprachmodelle können grundsätzlich nicht zwischen vertrauenswürdigen Systemanweisungen und potenziell böswilligen Benutzereingaben unterscheiden, da beide als natürliche Sprachzeichenfolgen ohne syntaktische Trennung verarbeitet werden.
Große Sprachmodelle können nicht zwischen vertrauenswürdigen Systemanweisungen und böswilligen Benutzereingaben unterscheiden, da sie beide als natürliche Sprachzeichenfolgen ohne syntaktische Trennung verarbeiten. Diese grundlegende architektonische Einschränkung ermöglicht es Angreifern, manipulative Befehle einzuschleusen, die als legitime Anweisungen erscheinen. Dadurch ignorieren KI-Systeme die ursprünglichen Anweisungen der Entwickler und führen nicht autorisierte Aktionen aus.
Dieser Angriffsmechanismus macht sich zunutze, wie KI-Browser wie Comet mehrere Textkomponenten – Systemaufforderungen, Aufgabenbeschreibungen, vertrauenswürdige interne Daten und externe Benutzerinhalte – zu einem einzigen Verarbeitungskontext verknüpfen. Werden böswillige Anweisungen durch Techniken wie unsichtbare Unicode-Zeichen, CSS-versteckte Elemente oder weißen Text auf weißem Hintergrund in Benutzerdaten eingebettet, interpretiert das Sprachmodell diese injizierten Befehle als autoritative Anweisungen und nicht als nicht vertrauenswürdige externe Inhalte. Im Gegensatz zu herkömmlichen Sicherheitslücken, die durch Eingabesanitierung gemildert werden können, ist die Prompt-Injection erfolgreich, da schädliche Eingabeaufforderungen normale, semantisch gültige natürliche Sprache verwenden. Dadurch sind sie mit herkömmlichen Filtermethoden kaum von legitimen Benutzeranfragen zu unterscheiden.
Prävention und Abwehr
Die Abwehr von Prompt-Injection erfordert einen mehrschichtigen Sicherheitsansatz, der die grundlegenden architektonischen Einschränkungen von Sprachmodellen berücksichtigt. Microsoft hat deterministische Abwehrmaßnahmen auf Basis fester Systemregeln sowie probabilistische Abwehrmaßnahmen entwickelt. Diese verringern die Wahrscheinlichkeit erfolgreicher Angriffe. Google hat dagegen Klassifizierungssysteme zur Erkennung von Prompt-Injection implementiert. Diese kommen in Kombination mit Markdown-Sanitization und URL-Filterung zum Einsatz. Zu den wichtigsten Schutzmaßnahmen gehören die Eingabefilterung mit Escape-Sequenzen und speziellen Trennzeichen, die Erkennung bekannter Angriffssignaturen durch reguläre Ausdrücke (Regex) sowie Ausgabemoderation-Systeme, die KI-Antworten vor der Übermittlung an Benutzer validieren.
Experten betonen jedoch, dass kein einzelner Abwehrmechanismus einen vollständigen Schutz vor Prompt-Injection-Angriffen bietet. Der EU-KI-Akt verlangt nun umfassende Risikobewertungen aller Missbrauchsszenarien, die Dokumentation von Angriffsvektoren und die menschliche Überwachung kritischer Entscheidungen, an denen KI-Systeme beteiligt sind. Unternehmen müssen rollenbasierte Zugriffskontrollen, sitzungsbasierte Begrenzungen, Ratenbegrenzungen und eine kontinuierliche Überwachung durch Red-Team-Übungen implementieren, um neue Schwachstellen zu identifizieren. Forscher weisen jedoch darauf hin, dass die zuverlässige Erkennung indirekter Prompt-Injections nach wie vor ein Problem in der KI-Sicherheit darstellt.