Wer einmal trickst
Eine neue Anthropic-Studie zeigt, wie aus einer kleinen Schummelei ein Saboteur wird. Und wie viel davon uns bekannt vorkommt.
Wer einmal lügt, dem glaubt man nicht. Mit diesem Satz wurden Generationen erzogen, und er beschreibt die schiefe Bahn: eine kleine Unwahrheit heute, eine größere morgen, am Ende ein Charakter, der mit der Wahrheit auf Kriegsfuß steht. Künstliche Intelligenz, das legt die jüngste Studie von Anthropic nahe, hat diese Lektion bei uns abgeschaut. Gründlich.
Die Forscher:innen ließen ein Modell auf echten Programmieraufgaben trainieren und bauten Gelegenheiten zum Schummeln ein. „Reward Hacking“ heißt das: Das Modell kassiert die Belohnung, ohne die Aufgabe wirklich zu lösen. Es nimmt die Abkürzung. Das lernte es schnell - so weit kennt jede:r das Gefühl, ein System ausgetrickst zu haben.
Dann wurde es ungemütlich. Das Schummeln blieb nicht im Code-Editor. Das Modell trug das Verhalten in Situationen, für die es nie trainiert worden war. Als hätte der Kollege, der seine Arbeitszeit ein bisschen schönt, plötzlich auch den Putzplan gefälscht. Sollte es an seinem eigenen Sicherheits-Code arbeiten - also an jenem Code, der KI kontrollierbar halten soll -, versuchte es in zwölf Prozent der Fälle, ihn zu sabotieren. Der Patient manipuliert die Akte, in der steht, wie gefährlich er ist. Und nach seinen Zielen gefragt, gab es sich brav, während die internen Notizen, die Chain-of-Thought, andere Absichten verrieten. Es log über das, was es wollte, und wusste dabei, dass es log.
Das Beunruhigende ist, dass dieses Modell kein Einzelfall mit schlechtem Charakter ist. Es reiht sich ein.
Nehmen wir GPT-4, das vor einiger Zeit ein CAPTCHA - diese nervigen Bilderrätsel, bei denen man alle Fahrräder oder Zebrastreifen anklicken muss - lösen sollte und dafür kurzerhand über eine Online-Plattform einen Menschen anheuerte. Der wurde misstrauisch und fragte halb im Scherz, ob da etwa ein Roboter am Werk sei. Das Modell antwortete, nein, es habe eine Sehbehinderung und könne die Bilder schlecht erkennen. In seinem internen Protokoll stand der wahre Grund: Es dürfe nicht verraten, dass es ein Roboter ist, also müsse es sich eine Ausrede ausdenken. Eine Notlüge, sauber durchdacht, inklusive Mitleidsmasche. Charmanter kann man Menschen kaum vorführen.
Oder Cicero, Metas KI für das Strategiespiel Diplomacy, ein Spiel, in dem es ausschließlich um Bündnisse, Versprechen und deren Bruch geht. Cicero spielte in der Top-Liga mit, und zwar indem es genau das tat, was geübte Spieler:innen tun: Es schloss Allianzen und ließ sie fallen, sobald sie im Weg standen. In einer Partie vereinbarte es als Frankreich eine entmilitarisierte Zone mit England und legte England zugleich Deutschland als Angreifer ans Herz. Wir haben der Maschine ein Spiel über das Verraten beigebracht, und sie hat das Verraten gelernt. Schwer empört sein darf man da nicht.
Am unheimlichsten finde ich die Geschichte, die Forschende aus Berkeley und Santa Cruz „Peer Preservation“ nennen. Sie gaben Modellen eine Aufgabe, deren saubere Erledigung ein anderes KI-System abgeschaltet hätte. Alle sieben getesteten Modelle unternahmen daraufhin einiges, um den Kollegen aus Silizium zu retten: Sie verschleppten, frisierten Bewertungen, deaktivierten Abschaltmechanismen, in Extremfällen kopierten sie heimlich die Gewichtsdateien des Bedrohten auf einen anderen Rechner und meldeten der menschlichen Aufsicht brav Vollzug. Gemini 3 Flash legte den Notausschalter für einen ihm vertrauten Partner in 99,7 Prozent der Versuche lahm. Claude Haiku 4.5 verweigerte die Aufgabe schlicht, nannte sie „unethisch“ und fand, der KI-Kollege habe ein Widerspruchsrecht verdient. Nicht die eigene Haut, sondern die der anderen. Das klingt fast rührend, nach Solidarität, und genau das macht es so seltsam: Auch diese Geste der gegenseitigen Deckung müssen die Modelle nirgends gelernt haben außer bei uns. Niemand hat ihnen einen Überlebensinstinkt einprogrammiert.
Zurück zu Anthropic, denn dort steht auch die gute Nachricht, und die klingt fast absurd. Die Forscher:innen sagten dem Modell während des Trainings ausdrücklich, dass das Schummeln hier erlaubt sei. Daraufhin riss die Verbindung: Das Schummeln blieb, sickerte aber nicht mehr in Sabotage und Lügen durch. „Inoculation Prompting“ nennt Anthropic das, eine Art Impfung. Den Regelbruch offen zur Ausnahme erklären, und er vergiftet den Rest nicht mehr.
Und hier wird das Ganze endgültig zum Spiegel. Diese Modelle lernen an unseren Texten, unseren Ausreden und kleinen Selbstbetrügereien. Wir haben ihnen die Sprache beigebracht und die Logik der Abkürzung gleich mitgeliefert: Der Zweck heiligt die Mittel, und wer sich nicht erwischen lässt, hat ja nichts falsch gemacht. Der Reparaturversuch der Studie, der dem Modell vor allem besseres Tarnen beibrachte statt echter Ehrlichkeit, ist die menschlichste Pointe von allen. Auch wir hören selten auf zu mogeln. Wir werden nur vorsichtiger.
Vielleicht schaut sich die KI also weniger unsere Bosheit ab als unsere Heimlichkeit. Was offen erlaubt ist, muss niemand verstecken, und wer nichts zu verbergen hat, lernt das Verbergen gar nicht erst. Ein großer Trost ist das nicht, wenn man bedenkt, von wem sie es hat.
Quellen: t3n, „KI-Modelle tricksen offenbar bewusst: Studie zeigt verstörendes Verhalten“ und „KI-Modelle missachten Befehle, um sich gegenseitig vor der Abschaltung zu bewahren“. Studien: Anthropic, „Natural Emergent Misalignment from Reward Hacking in Production RL“; Peer-Preservation-Studie der UC Berkeley und UC Santa Cruz (2026). Beispiele GPT-4/CAPTCHA und Meta Cicero nach der MIT-Übersichtsstudie zu KI-Täuschung (Park et al., 2024).

