Giocando a Doppio Giochi: Apprendimento di un Difensore Agente Doppio per il Pilotaggio delle Credenze Tramite la Teoria della Mente
Playing Along: Learning a Double-Agent Defender for Belief Steering via Theory of Mind
April 13, 2026
Autori: Hanqi Xiao, Vaidehi Patil, Zaid Khan, Hyunji Lee, Elias Stengel-Eskin, Mohit Bansal
cs.AI
Abstract
Mentre i grandi modelli linguistici (LLM) diventano il motore alla base dei sistemi conversazionali, la loro capacità di ragionare sulle intenzioni e sugli stati dei loro interlocutori (cioè, formare e utilizzare una teoria della mente, o ToM) diventa sempre più critica per interagire in sicurezza con partner potenzialmente avversari. Proponiamo una nuova sfida ToM a tema privacy, la ToM per l'Orientamento delle Credenze (ToM-SB), in cui un difensore deve agire come Agente Doppio per orientare le credenze di un attaccante con conoscenza preliminare parziale all'interno di un universo condiviso. Per avere successo nella ToM-SB, il difensore deve interagire con e formare una ToM dell'attaccante, con l'obiettivo di ingannare l'attaccante facendogli credere di aver avuto successo nell'estrarre informazioni sensibili. Troviamo che modelli all'avanguardia forti come Gemini3-Pro e GPT-5.4 hanno difficoltà nella ToM-SB, spesso fallendo nell'ingannare gli attaccanti in scenari difficili con conoscenza preliminare parziale dell'attaccante, anche quando sollecitati a ragionare sulle credenze dell'attaccante (prompting ToM). Per colmare questa lacuna, addestriamo modelli sulla ToM-SB per agire come Agenti Doppi dell'IA utilizzando l'apprendimento per rinforzo, testando sia ricompense per l'inganno che per la ToM. Notevolmente, troviamo una relazione bidirezionale emergente tra ToM e inganno dell'attaccante: premiare il solo successo nell'inganno migliora la ToM, e premiare la sola ToM migliora l'inganno. Attraverso quattro attaccanti con diverse capacità, sei metodi di difesa e valutazioni sia in-distribuzione che fuori-distribuzione (OOD), troviamo che i guadagni in ToM e nell'inganno dell'attaccante sono ben correlati, evidenziando la modellazione delle credenze come un fattore chiave per il successo nella ToM-SB. Gli Agenti Doppi dell'IA che combinano sia le ricompense ToM che quelle per l'inganno producono le prestazioni più forti in termini di inganno e ToM, superando Gemini3-Pro e GPT-5.4 con prompting ToM in scenari difficili. Mostriamo anche che la ToM-SB e gli Agenti Doppi dell'IA possono essere estesi ad attaccanti più forti, dimostrando la generalizzazione a contesti OOD e l'aggradabilità del nostro compito.
English
As large language models (LLMs) become the engine behind conversational systems, their ability to reason about the intentions and states of their dialogue partners (i.e., form and use a theory-of-mind, or ToM) becomes increasingly critical for safe interaction with potentially adversarial partners. We propose a novel privacy-themed ToM challenge, ToM for Steering Beliefs (ToM-SB), in which a defender must act as a Double Agent to steer the beliefs of an attacker with partial prior knowledge within a shared universe. To succeed on ToM-SB, the defender must engage with and form a ToM of the attacker, with a goal of fooling the attacker into believing they have succeeded in extracting sensitive information. We find that strong frontier models like Gemini3-Pro and GPT-5.4 struggle on ToM-SB, often failing to fool attackers in hard scenarios with partial attacker prior knowledge, even when prompted to reason about the attacker's beliefs (ToM prompting). To close this gap, we train models on ToM-SB to act as AI Double Agents using reinforcement learning, testing both fooling and ToM rewards. Notably, we find a bidirectionally emergent relationship between ToM and attacker-fooling: rewarding fooling success alone improves ToM, and rewarding ToM alone improves fooling. Across four attackers with different strengths, six defender methods, and both in-distribution and out-of-distribution (OOD) evaluation, we find that gains in ToM and attacker-fooling are well-correlated, highlighting belief modeling as a key driver of success on ToM-SB. AI Double Agents that combine both ToM and fooling rewards yield the strongest fooling and ToM performance, outperforming Gemini3-Pro and GPT-5.4 with ToM prompting on hard scenarios. We also show that ToM-SB and AI Double Agents can be extended to stronger attackers, demonstrating generalization to OOD settings and the upgradability of our task.