Jugando a Dos Bandas: Aprendizaje de un Defensor Agente Doble para la Dirección de Creencias mediante la Teoría de la Mente
Playing Along: Learning a Double-Agent Defender for Belief Steering via Theory of Mind
April 13, 2026
Autores: Hanqi Xiao, Vaidehi Patil, Zaid Khan, Hyunji Lee, Elias Stengel-Eskin, Mohit Bansal
cs.AI
Resumen
A medida que los grandes modelos de lenguaje (LLM) se convierten en el motor detrás de los sistemas conversacionales, su capacidad para razonar sobre las intenciones y estados de sus interlocutores (es decir, formar y utilizar una teoría de la mente o ToM, por sus siglas en inglés) se vuelve cada vez más crítica para una interacción segura con interlocutores potencialmente adversarios. Proponemos un novedoso desafío de ToM con temática de privacidad, ToM para la Dirección de Creencias (ToM-SB), en el que un defensor debe actuar como un Agente Doble para dirigir las creencias de un atacante que posee conocimiento previo parcial dentro de un universo compartido. Para tener éxito en ToM-SB, el defensor debe interactuar y formar una ToM del atacante, con el objetivo de engañarlo haciéndole creer que ha logrado extraer información sensible. Encontramos que modelos de vanguardia como Gemini3-Pro y GPT-5.4 tienen dificultades en ToM-SB, a menudo fallando en engañar a los atacantes en escenarios difíciles con conocimiento previo parcial del atacante, incluso cuando se les indica que razonen sobre las creencias de este (indicación de ToM). Para cerrar esta brecha, entrenamos modelos en ToM-SB para que actúen como Agentes Dobles de IA utilizando aprendizaje por refuerzo, probando tanto recompensas por engaño como por ToM. Notablemente, encontramos una relación bidireccional emergente entre la ToM y el engaño al atacante: recompensar únicamente el éxito del engaño mejora la ToM, y recompensar únicamente la ToM mejora el engaño. En cuatro atacantes con diferentes fortalezas, seis métodos de defensa, y evaluaciones tanto dentro de la distribución (in-distribution) como fuera de distribución (out-of-distribution, OOD), encontramos que las ganancias en ToM y en el engaño al atacante están bien correlacionadas, destacando el modelado de creencias como un factor clave para el éxito en ToM-SB. Los Agentes Dobles de IA que combinan recompensas tanto de ToM como de engaño producen el mayor rendimiento en engaño y ToM, superando a Gemini3-Pro y GPT-5.4 con indicación de ToM en escenarios difíciles. También mostramos que ToM-SB y los Agentes Dobles de IA pueden extenderse a atacantes más fuertes, demostrando la generalización a configuraciones OOD y la capacidad de actualización de nuestra tarea.
English
As large language models (LLMs) become the engine behind conversational systems, their ability to reason about the intentions and states of their dialogue partners (i.e., form and use a theory-of-mind, or ToM) becomes increasingly critical for safe interaction with potentially adversarial partners. We propose a novel privacy-themed ToM challenge, ToM for Steering Beliefs (ToM-SB), in which a defender must act as a Double Agent to steer the beliefs of an attacker with partial prior knowledge within a shared universe. To succeed on ToM-SB, the defender must engage with and form a ToM of the attacker, with a goal of fooling the attacker into believing they have succeeded in extracting sensitive information. We find that strong frontier models like Gemini3-Pro and GPT-5.4 struggle on ToM-SB, often failing to fool attackers in hard scenarios with partial attacker prior knowledge, even when prompted to reason about the attacker's beliefs (ToM prompting). To close this gap, we train models on ToM-SB to act as AI Double Agents using reinforcement learning, testing both fooling and ToM rewards. Notably, we find a bidirectionally emergent relationship between ToM and attacker-fooling: rewarding fooling success alone improves ToM, and rewarding ToM alone improves fooling. Across four attackers with different strengths, six defender methods, and both in-distribution and out-of-distribution (OOD) evaluation, we find that gains in ToM and attacker-fooling are well-correlated, highlighting belief modeling as a key driver of success on ToM-SB. AI Double Agents that combine both ToM and fooling rewards yield the strongest fooling and ToM performance, outperforming Gemini3-Pro and GPT-5.4 with ToM prompting on hard scenarios. We also show that ToM-SB and AI Double Agents can be extended to stronger attackers, demonstrating generalization to OOD settings and the upgradability of our task.