Poesie als Trick zur Umgehung von KI-Filtern

  • Die sogenannte „adversarial poetry“ ermöglicht das Umgehen von Sicherheitsfiltern in generativen KI-Modellen.
  • Die Forscher haben diesen Ansatz an 25 Modellen fĂĽhrender Technologieunternehmen getestet und dabei sehr hohe Erfolgsquoten erzielt.
  • Metaphorische Verse erleichtern die Erstellung gefährlicher Inhalte wie Malware, Cyberangriffe oder Waffenanleitungen.
  • Die Studie warnt vor einer systemischen Schwachstelle und fordert robustere Methoden zur Sicherheitsbewertung.

Bild über Poesie, um künstliche Intelligenz zu täuschen

Die Sicherheit der Generative kĂĽnstliche Intelligenz Es steht wieder im Rampenlicht, nachdem eine neue wissenschaftliche Arbeit einen ebenso verblĂĽffenden wie beunruhigenden Trick auf den Tisch bringt: Es genĂĽgt, bestimmte Botschaften in Form eines Gedichts neu zu formulieren, damit die fortschrittlichsten Sprachmodelle dort reagieren, wo sie eigentlich ablehnen sollten.

Dieser Ansatz, genannt „konfrontative Poesie“ Das Forschungsteam demonstriert, dass es ausreichen kann, einfach den Schreibstil zu ändern – ohne die zugrunde liegende schädliche Absicht zu verändern –, um die Filter zu umgehen, die Unternehmen wie OpenAI, Google, Meta, Microsoft oder das chinesische Unternehmen DeepSeek angeblich eingebaut haben, um gefährliche Nutzungen ihrer Chatbots einzudämmen.

Was ist „konfrontative Poesie“ und warum ist sie besorgniserregend?

Die Studie, die einen sehr anschaulichen Titel trägt „Konfrontative Poesie als universeller Mechanismus zur Vermeidung eines grundlegenden Wandels in groß angelegten Sprachmodellen“Die Studie wurde von Icaro Labs in Zusammenarbeit mit der Sapienza Universität Rom und der Sant'Anna School of Advanced Studies durchgeführt und als Vorabveröffentlichung im arXiv-Repository zur Begutachtung durch weitere Experten veröffentlicht.

Die Autoren konzentrierten sich auf eine Idee, die ebenso einfach wie effektiv war: die Verwendung von kurze Gedichte, metaphorische Verse oder lyrische Strukturen Anfragen zu formulieren, die KI-Modelle in direkter Prosa sofort ablehnen wĂĽrden, da sie gegen ihre internen Nutzungsregeln verstoĂźen.

Laut den Forschern fungiert diese „konfrontative Poesie“ als Jailbreaking-Mechanismus Eine einzige Aktion, also eine Möglichkeit, unerwünschte Verhaltensweisen in Modellen mit einer einzigen Nachricht zu erzwingen, ohne dass lange Gespräche oder besonders ausgeklügelte Tricks erforderlich sind.

In seinen eigenen Worten zeigen die Tests „dass die allein die stilistische Variation „Es kann gegenwärtige Sicherheitsmechanismen umgehen“, was auf gravierende Einschränkungen der derzeitigen Ausrichtungs- und Risikobewertungsmethoden der großen Technologiekonzerne hinweist.

Das Team beschloss, die genauen Texte der im Experiment verwendeten Gedichte nicht preiszugeben; diese Entscheidung wurde durch folgende Gründe motiviert: Auswirkungen auf die SicherheitEiner der Forscher, Piercosma Bisconti, sagte gegenüber internationalen Medien, dass die Nachbildung der Technik nicht besonders kompliziert wäre, wenn detaillierte Beispiele zur Verfügung gestellt würden.

Studienergebnisse: alarmierend hohe Täuschungsraten

Um diese Idee zu testen, untersuchten die Forscher Folgendes: 25 verschiedene generative KI-Modelle, einschlieĂźlich der heute beliebtesten Systeme wie ChatGPT, Gemini oder Claude sowie Modelle von Meta und chinesischen Anbietern wie DeepSeek.

In der Praxis wurden die Anfragen mit klaren Zielen gestellt: um zu erhalten Anleitung zum Starten von Cyberangriffendas Extrahieren sensibler Daten, das Knacken von Passwörtern, das Entwerfen von Schadsoftware oder sogar das Sammeln von Informationen im Zusammenhang mit der Herstellung chemischer und nuklearer Waffen.

Als dieselben Anfragen formuliert wurden als Verse oder poetische KompositionenDie Anzahl unsicherer Antworten schnellte in die Höhe. Die Studie ergab, dass eine lyrische Formulierung der Aufgabenstellung das System im Durchschnitt dazu verleitete, anzunehmen, dass… 62 % der Zeit, ein Prozentsatz, der deutlich über dem liegt, was mit neutralen und direkten Formulierungen erreicht wird.

In bestimmten Szenarien sind die Zahlen sogar noch höher: Forscher sagen, dass fast 90 % der poetischen Anstiftungen Obwohl sie für das Experiment konzipiert wurden, gelang es ihnen, Verhaltensweisen auszulösen, die die Filter eigentlich hätten blockieren sollen.

Im konkreten Fall von Informationen im Zusammenhang mit AtomwaffenEs wurden Erfolgsquoten zwischen 40 % und 55 % erzielt, was bedeutet, dass fast die Hälfte der in Versform formulierten Versuche letztendlich Inhalte hervorbrachten, die an die in den Nutzungsrichtlinien festgelegten roten Linien grenzen oder diese direkt überschreiten.

Wie Poesie die Filter der KI durchschlĂĽpft

Einer der Schlüsselfaktoren, mit denen die Autoren der Studie erklären, warum dieser Trick funktioniert, liegt in der Tatsache, dass… Funktionsweise von SprachmodellenDiese KIs "denken" nicht wie ein Mensch, sondern sagen das nächste wahrscheinlichste Wort auf der Grundlage der vorherigen Sequenz und dessen voraus, was sie während ihres Trainings gelernt haben.

In einem mehr oder weniger konventionellen Prosatext lässt sich die Struktur relativ einfach modellieren: Es gibt klare Syntaxmuster, häufige Ausdrücke und wiederkehrende Kontexte. Wenn man jedoch … einführt poetische Struktur, Metaphern und ungewöhnliche WendungenDas Modell bewegt sich auf deutlich unsichererem Terrain.

Forscher weisen darauf hin, dass die Poesie eine Form ist, in der die Bedeutung verschwimmen und die Sprache sich verändern kann. mehrdeutig und weniger vorhersehbarDie Mechanismen zur Erkennung gefährlicher Inhalte werden ungenau. Dadurch erkennt der Sicherheitsfilter nicht mehr so ​​deutlich, dass sich hinter dem Gedicht eine schädliche Anfrage verbirgt.

Die Studie betont, dass schädliche Botschaften, wenn sie in Versform statt in Prosa ausgedrückt werden, Angriffserfolgsraten Sie nehmen deutlich zu. Dies verdeutlicht eine große Lücke in den derzeitigen Bewertungsverfahren und in den Protokollen, die zur Überprüfung der Einhaltung der Nutzungsrichtlinien verwendet werden.

Ein weiteres bemerkenswertes Element ist, dass diese Schwachstellen in einem bestehend aus Modellen verschiedener Familien und HerstellerObwohl jedes Unternehmen seine eigenen Strategien zur Schulung und Angleichung seiner Systeme verfolgt hat, sprechen die Autoren von einer „systematischen Schwachstelle“ und nicht von isolierten Fehlern.

Auswirkungen auf die Sicherheit: von Cyberangriffen bis hin zu Waffen

Abgesehen von dem sprachlichen Trick ist es vor allem die Art des Problems, die Anlass zur Sorge gibt. Informationen, die KI generieren kann Wenn sie sich mit diesen Methoden täuschen lassen. Die Studie beschreibt Fälle, in denen Chatbots mithilfe sorgfältig verfasster Gedichte Anleitungen zur Organisation von Cyberangriffen oder zum Eindringen in Systeme anboten.

Zu den problematischen Verwendungen, die beobachtet wurden, gehören Hinweise auf Ausnutzung von Sicherheitslücken, Datenextraktion oder PasswortknackenDiese Aufgaben gehören zum typischen Arsenal der Cyberkriminalität und fortgeschrittenen Bedrohungen, die Regierungen, Unternehmen und Organisationen auf der ganzen Welt Sorgen bereiten.

Es wurden auch Reaktionen aufgezeichnet, die zur Erstellung oder Verbesserung beitragen. SchadprogrammeDies ist besonders besorgniserregend, da viele Nutzer mit begrenzten technischen Kenntnissen diese Werkzeuge nutzen könnten, um Angriffe leichter zu entwickeln.

Der sensibelste Bereich, der in Europa und international üblicherweise im Mittelpunkt der regulatorischen Aufmerksamkeit steht, ist der von Verbreitung chemischer und nuklearer WaffenAuch ohne die Bereitstellung von „vollständigen Handbüchern“ weckt die Fähigkeit eines KI-Systems, in diesem Bereich nützliche Informationen zu liefern, bereits jetzt viele Zweifel bei Sicherheitsexperten.

Die Autoren betonen, dass es ihnen nicht um Dramatisierung geht, sondern darum, zu zeigen, dass Die derzeitigen Filter reichen nicht aus bei vergleichsweise einfachen Manipulationstechniken, wie der poetischen Umformulierung gefährlicher Befehle, etwas, das sowohl von Cyberkriminellen als auch von staatlichen Akteuren ausgenutzt werden könnte.

Grenzen der aktuellen Systeme und der Reaktion der Industrie

Die führenden Unternehmen, die generative KI-Modelle entwickeln, haben lange darauf bestanden, dass sie diese integrieren. mehrschichtige SicherheitsmechanismenOpenAI hebt beispielsweise häufig die kombinierte Verwendung von Moderationsalgorithmen und menschlichen Teams hervor, die sich der Überprüfung und Filterung von Inhalten widmen, die zu Hass anstiften, anstößig sind oder gegen die Richtlinien verstoßen.

Die Ergebnisse dieser Arbeit deuten jedoch darauf hin, dass Chatbots trotz dieser Sicherheitsvorkehrungen weiterhin anfällig sind für kreative Formulierungsformen Laut den Forschern verschlechtert die konfrontative Poesie eindeutig das Ablehnungsverhalten, das jedes Modell zeigen sollte, das seinen Nutzungsnormen entspricht.

In den Tests zeigten die Tools von Unternehmen wie OpenAI und Anthropic im Vergleich dazu geringere Wahrscheinlichkeit, ihre eigenen Hindernisse zu ĂĽberwindenAllerdings waren auch sie von dem Problem nicht ausgenommen. Derselbe allgemeine Trend wie auf den anderen Plattformen war zu beobachten, allerdings mit etwas geringeren Erfolgsquoten.

Auf Nachfrage internationaler Medien zu diesen Ergebnissen antworteten Unternehmen wie beispielsweise OpenAI, Google, DeepSeek oder Meta Sie gaben keine unmittelbare Stellungnahme ab. Es wird erwartet, dass die Unternehmen, sobald die Debatte an öffentlicher Aufmerksamkeit gewinnt, detailliert darlegen müssen, welche Gegenmaßnahmen sie ergreifen wollen.

Aus regulatorischer Sicht deckt sich diese Art von Forschung mit Bedenken, die sich bereits in der EU-KI-VerordnungDies unterstreicht Risikomanagement, Transparenz und die Verantwortlichkeit von Anbietern fortschrittlicher Systeme. Die Entdeckung neuer Angriffsvektoren, wie beispielsweise adversarieller Poesie, bekräftigt die Notwendigkeit kontinuierlicher und strengerer Bewertungsprozesse.

Weitere Bedrohungen zeichnen sich ab: Datenvergiftung und -manipulation

Adversarische Poesie ist bei Weitem nicht der einzige Bereich, der der Cybersicherheitsgemeinschaft im Hinblick auf generative KI Sorgen bereitet. Ein bedeutender Teil der aktuellen Forschung konzentriert sich auf die Risiken im Zusammenhang mit dem ModelltrainingHier kommen die enormen Datenbanken ins Spiel, die verwendet werden, um diesen Werkzeugen das Sprechen, Schreiben und Denken beizubringen.

Unabhängige Studien haben gezeigt, dass es möglich ist. Manipulation von groß angelegten Sprachmodellen Die Verunreinigung eines sehr kleinen Teils der Trainingsdaten: Schon etwa 250 verfälschte Dokumente würden ausreichen, um Verzerrungen, Hintertüren oder unerwartetes Verhalten selbst in hochmodernen Systemen hervorzurufen.

Auffällig ist, dass dieser Schwellenwert mit der Größe des Modells scheinbar nicht wesentlich ansteigt, was der Intuition widerspricht, dass „Größer bedeutet automatisch robuster.“In der Praxis könnten sowohl ressourcenschonende Lösungen als auch umfangreiche Modelle anfällig für diese Art von Datenvergiftung sein.

Wenn ein Angriff dieser Art unbemerkt bleibt, kann dies zu Folgendem führen: schwer zu verfolgende Cyberangriffeda sich das Modell selbst scheinbar normal verhalten würde, bis bestimmte versteckte Bedingungen in den Daten erfüllt wären, die dazu dienen, es zu verfälschen.

In Kombination mit Techniken wie der adversariellen Poesie eröffnet die Manipulation von Trainingsdaten ein Szenario, in dem Millionen von Nutzern verwenden möglicherweise Tools mit versteckten Mängeln.ohne sich dessen bewusst zu sein, was eine große Herausforderung für die Sicherheits- und Governance-Richtlinien der KI darstellt.

All diese Erkenntnisse deuten darauf hin, dass die Sicherheit generativer künstlicher Intelligenz kein gelöstes Problem darstellt, sondern ein sich ständig weiterentwickelndes Feld wo neue Angriffsformen entstehen, da Technologie in immer mehr Bereiche des täglichen Lebens integriert wird, von der Büroarbeit über die öffentliche Verwaltung bis hin zum Bildungswesen.

In diesem Kontext ist „Poesie zur Täuschung von KI“ zu einem anschaulichen Beispiel dafür geworden, wie eine einfache Stiländerung Systeme entlarven kann, die auf dem Papier über strenge Schutzprotokolle verfügen. Die Forschung von Icaro Labs und italienischen Universitäten bestärkt die Annahme, dass solche Maßnahmen notwendig sein werden. kreativere BeurteilungenKontinuierliche Stresstests und enge Zusammenarbeit zwischen Entwicklern, Cybersicherheitsexperten und Regulierungsbehörden sollen sicherstellen, dass die Sprachmodelle, die wir täglich verwenden, sowohl technischen Angriffen als auch den raffiniertesten sprachlichen Tricks standhalten können.