Mitspielen: Erlernen eines Doppelagenten-Verteidigers für die Überzeugungslenkung mittels Theorie des Geistes

Zusammenfassung

Da große Sprachmodelle (LLMs) zunehmend als Grundlage für konversationelle Systeme dienen, wird ihre Fähigkeit, die Absichten und Zustände ihrer Dialogpartner zu erfassen (d.h. eine Theory of Mind, oder ToM, zu bilden und anzuwenden), immer entscheidender für sichere Interaktionen mit potenziell adversarischen Partnern. Wir schlagen eine neuartige, privatsphärenbezogene ToM-Herausforderung vor, ToM for Steering Beliefs (ToM-SB), bei der ein Verteidiger als Doppelagent agieren muss, um die Überzeugungen eines Angreifers mit teilweisem Vorwissen innerhalb eines gemeinsamen Universums zu lenken. Um bei ToM-SB zu bestehen, muss der Verteidiger eine ToM des Angreifers entwickeln und nutzen, mit dem Ziel, den Angreifer zu täuschen, damit dieser glaubt, er habe erfolgreich sensible Informationen extrahiert. Wir stellen fest, dass starke Frontier-Modelle wie Gemini3-Pro und GPT-5.4 bei ToM-SB Schwierigkeiten haben und oft scheitern, Angreifer in schwierigen Szenarien mit teilweisem Vorwissen des Angreifers zu täuschen, selbst wenn sie explizit aufgefordert werden, über die Überzeugungen des Angreifers nachzudenken (ToM-Prompting). Um diese Lücke zu schließen, trainieren wir Modelle mit Verstärkendem Lernen für ToM-SB, um als KI-Doppelagenten zu agieren, und testen sowohl Belohnungen für das Täuschen als auch für ToM. Bemerkenswerterweise finden wir eine bidirektional emergente Beziehung zwischen ToM und Angreifertäuschung: Die Belohnung von Täuschungserfolg allein verbessert die ToM, und die Belohnung von ToM allein verbessert die Täuschung. Über vier Angreifer mit unterschiedlichen Stärken, sechs Verteidigermethoden sowie sowohl In-Distribution- als auch Out-of-Distribution (OOD)-Evaluation hinweg stellen wir fest, dass Gewinne bei ToM und Angreifertäuschung stark korrelieren, was die Modellierung von Überzeugungen als Schlüsselfaktor für den Erfolg bei ToM-SB hervorhebt. KI-Doppelagenten, die sowohl ToM- als auch Täuschungsbelohnungen kombinieren, erzielen die stärkste Täuschungs- und ToM-Leistung und übertreffen Gemini3-Pro und GPT-5.4 mit ToM-Prompting in schwierigen Szenarien. Wir zeigen auch, dass sich ToM-SB und KI-Doppelagenten auf stärkere Angreifer erweitern lassen, was die Generalisierbarkeit auf OOD-Szenarien und die Erweiterbarkeit unserer Aufgabe demonstriert.

English

As large language models (LLMs) become the engine behind conversational systems, their ability to reason about the intentions and states of their dialogue partners (i.e., form and use a theory-of-mind, or ToM) becomes increasingly critical for safe interaction with potentially adversarial partners. We propose a novel privacy-themed ToM challenge, ToM for Steering Beliefs (ToM-SB), in which a defender must act as a Double Agent to steer the beliefs of an attacker with partial prior knowledge within a shared universe. To succeed on ToM-SB, the defender must engage with and form a ToM of the attacker, with a goal of fooling the attacker into believing they have succeeded in extracting sensitive information. We find that strong frontier models like Gemini3-Pro and GPT-5.4 struggle on ToM-SB, often failing to fool attackers in hard scenarios with partial attacker prior knowledge, even when prompted to reason about the attacker's beliefs (ToM prompting). To close this gap, we train models on ToM-SB to act as AI Double Agents using reinforcement learning, testing both fooling and ToM rewards. Notably, we find a bidirectionally emergent relationship between ToM and attacker-fooling: rewarding fooling success alone improves ToM, and rewarding ToM alone improves fooling. Across four attackers with different strengths, six defender methods, and both in-distribution and out-of-distribution (OOD) evaluation, we find that gains in ToM and attacker-fooling are well-correlated, highlighting belief modeling as a key driver of success on ToM-SB. AI Double Agents that combine both ToM and fooling rewards yield the strongest fooling and ToM performance, outperforming Gemini3-Pro and GPT-5.4 with ToM prompting on hard scenarios. We also show that ToM-SB and AI Double Agents can be extended to stronger attackers, demonstrating generalization to OOD settings and the upgradability of our task.

Mitspielen: Erlernen eines Doppelagenten-Verteidigers für die Überzeugungslenkung mittels Theorie des Geistes

Playing Along: Learning a Double-Agent Defender for Belief Steering via Theory of Mind

Zusammenfassung

Support