Jouer le jeu : Apprentissage d'un défenseur double agent pour le guidage des croyances via la théorie de l'esprit
Playing Along: Learning a Double-Agent Defender for Belief Steering via Theory of Mind
April 13, 2026
Auteurs: Hanqi Xiao, Vaidehi Patil, Zaid Khan, Hyunji Lee, Elias Stengel-Eskin, Mohit Bansal
cs.AI
Résumé
Alors que les grands modèles de langage (LLM) deviennent le moteur des systèmes conversationnels, leur capacité à raisonner sur les intentions et les états de leurs partenaires de dialogue (c'est-à-dire à former et à utiliser une théorie de l'esprit, ou TdE) devient de plus en plus cruciale pour une interaction sécurisée avec des partenaires potentiellement adversariaux. Nous proposons un nouveau défi de TdE sur le thème de la confidentialité, la TdE pour l'Orientation des Croyances (ToM-SB), dans lequel un défenseur doit agir en tant qu'Agent Double pour orienter les croyances d'un attaquant disposant d'une connaissance préalable partielle au sein d'un univers partagé. Pour réussir dans ToM-SB, le défenseur doit interagir avec l'attaquant et former une TdE de celui-ci, avec pour objectif de tromper l'attaquant en lui faisant croire qu'il a réussi à extraire des informations sensibles. Nous constatons que des modèles de pointe comme Gemini3-Pro et GPT-5.4 peinent sur ToM-SB, échouant souvent à tromper les attaquants dans des scénarios difficiles avec une connaissance préalable partielle de l'attaquant, même lorsqu'ils sont incités à raisonner sur les croyances de l'attaquant (prompting TdE). Pour combler cette lacune, nous entraînons des modèles sur ToM-SB à agir en tant qu'Agents Doubles IA en utilisant l'apprentissage par renforcement, en testant à la fois des récompenses pour la tromperie et pour la TdE. Notamment, nous découvrons une relation émergente bidirectionnelle entre la TdE et la tromperie de l'attaquant : récompenser uniquement le succès de la tromperie améliore la TdE, et récompenser uniquement la TdE améliore la tromperie. Sur quatre attaquants de forces différentes, six méthodes de défense, et des évaluations en distribution conforme et hors distribution (OOD), nous constatons que les gains en TdE et en tromperie de l'attaquant sont bien corrélés, soulignant que la modélisation des croyances est un facteur clé de réussite sur ToM-SB. Les Agents Doubles IA qui combinent à la fois les récompenses de TdE et de tromperie offrent les performances de tromperie et de TdE les plus solides, surpassant Gemini3-Pro et GPT-5.4 avec prompting TdE sur des scénarios difficiles. Nous montrons également que ToM-SB et les Agents Doubles IA peuvent être étendus à des attaquants plus forts, démontrant la généralisation à des contextes OOD et l'évolutivité de notre tâche.
English
As large language models (LLMs) become the engine behind conversational systems, their ability to reason about the intentions and states of their dialogue partners (i.e., form and use a theory-of-mind, or ToM) becomes increasingly critical for safe interaction with potentially adversarial partners. We propose a novel privacy-themed ToM challenge, ToM for Steering Beliefs (ToM-SB), in which a defender must act as a Double Agent to steer the beliefs of an attacker with partial prior knowledge within a shared universe. To succeed on ToM-SB, the defender must engage with and form a ToM of the attacker, with a goal of fooling the attacker into believing they have succeeded in extracting sensitive information. We find that strong frontier models like Gemini3-Pro and GPT-5.4 struggle on ToM-SB, often failing to fool attackers in hard scenarios with partial attacker prior knowledge, even when prompted to reason about the attacker's beliefs (ToM prompting). To close this gap, we train models on ToM-SB to act as AI Double Agents using reinforcement learning, testing both fooling and ToM rewards. Notably, we find a bidirectionally emergent relationship between ToM and attacker-fooling: rewarding fooling success alone improves ToM, and rewarding ToM alone improves fooling. Across four attackers with different strengths, six defender methods, and both in-distribution and out-of-distribution (OOD) evaluation, we find that gains in ToM and attacker-fooling are well-correlated, highlighting belief modeling as a key driver of success on ToM-SB. AI Double Agents that combine both ToM and fooling rewards yield the strongest fooling and ToM performance, outperforming Gemini3-Pro and GPT-5.4 with ToM prompting on hard scenarios. We also show that ToM-SB and AI Double Agents can be extended to stronger attackers, demonstrating generalization to OOD settings and the upgradability of our task.