Meedoen: Een dubbelagent-verdediger leren voor belief-sturing via Theory of Mind

Samenvatting

Naarmate grote taalmodellen (LLM's) de motor achter conversatiesystemen worden, wordt hun vermogen om te redeneren over de intenties en toestanden van hun gesprekspartners (d.w.z. een theory-of-mind, of ToM, vormen en gebruiken) steeds kritieker voor veilige interactie met potentieel adversariële partners. Wij stellen een nieuwe privacy-georiënteerde ToM-uitdaging voor, ToM for Steering Beliefs (ToM-SB), waarin een verdediger moet optreden als een Dubbelagent om de overtuigingen van een aanvaller met gedeeltelijke voorkennis binnen een gedeelde context te sturen. Om te slagen in ToM-SB moet de verdediger een ToM van de aanvaller vormen en gebruiken, met als doel de aanvaller te misleiden zodat deze gelooft dat hij erin geslaagd is gevoelige informatie te extraheren. Wij constateren dat sterke frontier-modellen zoals Gemini3-Pro en GPT-5.4 moeite hebben met ToM-SB; zij slagen er vaak niet in aanvallers te misleiden in moeilijke scenario's met gedeeltelijke voorkennis van de aanvaller, zelfs niet wanneer zij worden aangezet tot redeneren over de overtuigingen van de aanvaller (ToM-prompting). Om deze kloof te dichten, trainen wij modellen met reinforcement learning om op te treden als AI-dubbelagenten in ToM-SB, waarbij wij zowel beloningen voor misleiding als voor ToM testen. Opmerkelijk is dat wij een bidirectioneel emergent verband constateren tussen ToM en het misleiden van de aanvaller: het belonen van misleidingssucces alleen verbetert de ToM, en het belonen van ToM alleen verbetert de misleiding. Over vier aanvallers met verschillende sterktes, zes verdedigingsmethoden, en zowel in-distributie als out-of-distribution (OOD) evaluatie, constateren wij dat winsten in ToM en het misleiden van de aanvaller sterk gecorreleerd zijn, wat modellering van overtuigingen benadrukt als een cruciale drijvende kracht voor succes in ToM-SB. AI-dubbelagenten die zowel ToM- als misleidingsbeloningen combineren, leveren de sterkste misleidings- en ToM-prestaties, en overtreffen Gemini3-Pro en GPT-5.4 met ToM-prompting in moeilijke scenario's. Wij tonen ook aan dat ToM-SB en AI-dubbelagenten kunnen worden uitgebreid naar sterkere aanvallers, wat generalisatie naar OOD-instellingen en de upgradebaarheid van onze taak aantoont.

English

As large language models (LLMs) become the engine behind conversational systems, their ability to reason about the intentions and states of their dialogue partners (i.e., form and use a theory-of-mind, or ToM) becomes increasingly critical for safe interaction with potentially adversarial partners. We propose a novel privacy-themed ToM challenge, ToM for Steering Beliefs (ToM-SB), in which a defender must act as a Double Agent to steer the beliefs of an attacker with partial prior knowledge within a shared universe. To succeed on ToM-SB, the defender must engage with and form a ToM of the attacker, with a goal of fooling the attacker into believing they have succeeded in extracting sensitive information. We find that strong frontier models like Gemini3-Pro and GPT-5.4 struggle on ToM-SB, often failing to fool attackers in hard scenarios with partial attacker prior knowledge, even when prompted to reason about the attacker's beliefs (ToM prompting). To close this gap, we train models on ToM-SB to act as AI Double Agents using reinforcement learning, testing both fooling and ToM rewards. Notably, we find a bidirectionally emergent relationship between ToM and attacker-fooling: rewarding fooling success alone improves ToM, and rewarding ToM alone improves fooling. Across four attackers with different strengths, six defender methods, and both in-distribution and out-of-distribution (OOD) evaluation, we find that gains in ToM and attacker-fooling are well-correlated, highlighting belief modeling as a key driver of success on ToM-SB. AI Double Agents that combine both ToM and fooling rewards yield the strongest fooling and ToM performance, outperforming Gemini3-Pro and GPT-5.4 with ToM prompting on hard scenarios. We also show that ToM-SB and AI Double Agents can be extended to stronger attackers, demonstrating generalization to OOD settings and the upgradability of our task.

Meedoen: Een dubbelagent-verdediger leren voor belief-sturing via Theory of Mind

Playing Along: Learning a Double-Agent Defender for Belief Steering via Theory of Mind

Samenvatting

Support