Играя по правилам: Обучение защитника-двойного агента для управления убеждениями через теорию сознания
Playing Along: Learning a Double-Agent Defender for Belief Steering via Theory of Mind
April 13, 2026
Авторы: Hanqi Xiao, Vaidehi Patil, Zaid Khan, Hyunji Lee, Elias Stengel-Eskin, Mohit Bansal
cs.AI
Аннотация
По мере того как крупные языковые модели (LLM) становятся основой диалоговых систем, их способность анализировать намерения и состояния партнеров по диалогу (т.е. формировать и использовать теорию сознания, или ToM) становится все более критически важной для безопасного взаимодействия с потенциально враждебными собеседниками. Мы предлагаем новую задачу на проверку ToM в контексте приватности — ToM для управления убеждениями (ToM-SB), в которой защитник должен действовать как двойной агент, чтобы направлять убеждения атакующего, обладающего частичными априорными знаниями, в рамках общей модели мира. Для успешного выполнения задачи ToM-SB защитник должен взаимодействовать с атакующим и формировать его ToM с целью обмана, заставив атакующего поверить в успешность извлечения конфиденциальной информации. Мы обнаружили, что передовые модели, такие как Gemini3-Pro и GPT-5.4, испытывают трудности с ToM-SB, часто не способны обмануть атакующих в сложных сценариях с частичными априорными знаниями, даже при использовании подсказок, стимулирующих анализ убеждений атакующего (ToM-промптинг). Для преодоления этого разрыва мы обучаем модели на задаче ToM-SB действовать в качестве агентов-двойников с помощью обучения с подкреплением, тестируя как вознаграждение за обман, так и за ToM. Примечательно, что мы обнаруживаем двунаправленную emergent-связь между ToM и успешностью обмана: вознаграждение только за успешный обман улучшает ToM, а вознаграждение только за ToM улучшает обман. На четырех типах атакующих с разными возможностями, шести методах защиты и оценке как на in-distribution, так и на out-of-distribution (OOD) данных, мы обнаружили, что улучшения в ToM и успешности обмана хорошо коррелируют, что подчеркивает моделирование убеждений как ключевой фактор успеха в ToM-SB. Агенты-двойники на основе ИИ, сочетающие вознаграждения за ToM и обман, демонстрируют наилучшие результаты по обоим показателям, превосходя Gemini3-Pro и GPT-5.4 с ToM-промптингом в сложных сценариях. Мы также показываем, что задача ToM-SB и агенты-двойники могут быть расширены для работы с более сильными атакующими, что демонстрирует обобщаемость на OOD-условия и возможность усложнения нашей задачи.
English
As large language models (LLMs) become the engine behind conversational systems, their ability to reason about the intentions and states of their dialogue partners (i.e., form and use a theory-of-mind, or ToM) becomes increasingly critical for safe interaction with potentially adversarial partners. We propose a novel privacy-themed ToM challenge, ToM for Steering Beliefs (ToM-SB), in which a defender must act as a Double Agent to steer the beliefs of an attacker with partial prior knowledge within a shared universe. To succeed on ToM-SB, the defender must engage with and form a ToM of the attacker, with a goal of fooling the attacker into believing they have succeeded in extracting sensitive information. We find that strong frontier models like Gemini3-Pro and GPT-5.4 struggle on ToM-SB, often failing to fool attackers in hard scenarios with partial attacker prior knowledge, even when prompted to reason about the attacker's beliefs (ToM prompting). To close this gap, we train models on ToM-SB to act as AI Double Agents using reinforcement learning, testing both fooling and ToM rewards. Notably, we find a bidirectionally emergent relationship between ToM and attacker-fooling: rewarding fooling success alone improves ToM, and rewarding ToM alone improves fooling. Across four attackers with different strengths, six defender methods, and both in-distribution and out-of-distribution (OOD) evaluation, we find that gains in ToM and attacker-fooling are well-correlated, highlighting belief modeling as a key driver of success on ToM-SB. AI Double Agents that combine both ToM and fooling rewards yield the strongest fooling and ToM performance, outperforming Gemini3-Pro and GPT-5.4 with ToM prompting on hard scenarios. We also show that ToM-SB and AI Double Agents can be extended to stronger attackers, demonstrating generalization to OOD settings and the upgradability of our task.