Jogando Junto: Aprendendo um Defensor Duplo-Agente para Direcionamento de Crenças via Teoria da Mente

Resumo

À medida que os grandes modelos de linguagem (LLMs) se tornam o motor por trás dos sistemas conversacionais, a sua capacidade de raciocinar sobre as intenções e estados dos seus parceiros de diálogo (ou seja, formar e utilizar uma teoria da mente, ou ToM) torna-se cada vez mais crítica para uma interação segura com parceiros potencialmente adversários. Propomos um novo desafio de ToM com tema de privacidade, a ToM para Direcionar Crenças (ToM-SB), no qual um defensor deve atuar como um Agente Duplo para direcionar as crenças de um atacante com conhecimento prévio parcial dentro de um universo compartilhado. Para ter sucesso na ToM-SB, o defensor deve envolver-se e formar uma ToM do atacante, com o objetivo de enganar o atacante, fazendo-o acreditar que teve sucesso em extrair informações sensíveis. Constatamos que modelos de ponta robustos, como o Gemini3-Pro e o GPT-5.4, têm dificuldades com a ToM-SB, falhando frequentemente em enganar atacantes em cenários difíceis com conhecimento prévio parcial do atacante, mesmo quando instruídos a raciocinar sobre as crenças do atacante (instrução ToM). Para colmatar esta lacuna, treinamos modelos na tarefa ToM-SB para atuarem como Agentes Duplos de IA usando aprendizagem por reforço, testando tanto recompensas por engano quanto recompensas por ToM. Notavelmente, descobrimos uma relação bidirecional emergente entre a ToM e o engano do atacante: recompensar apenas o sucesso no engano melhora a ToM, e recompensar apenas a ToM melhora o engano. Em quatro atacantes com diferentes capacidades, seis métodos de defesa e avaliação tanto dentro como fora da distribuição (OOD), constatamos que os ganhos em ToM e no engano do atacante estão bem correlacionados, destacando a modelação de crenças como um fator chave para o sucesso na ToM-SB. Agentes Duplos de IA que combinam recompensas de ToM e de engano produzem o melhor desempenho em engano e ToM, superando o Gemini3-Pro e o GPT-5.4 com instrução ToM em cenários difíceis. Também mostramos que a ToM-SB e os Agentes Duplos de IA podem ser estendidos a atacantes mais fortes, demonstrando a generalização para configurações OOD e a capacidade de atualização da nossa tarefa.

English

As large language models (LLMs) become the engine behind conversational systems, their ability to reason about the intentions and states of their dialogue partners (i.e., form and use a theory-of-mind, or ToM) becomes increasingly critical for safe interaction with potentially adversarial partners. We propose a novel privacy-themed ToM challenge, ToM for Steering Beliefs (ToM-SB), in which a defender must act as a Double Agent to steer the beliefs of an attacker with partial prior knowledge within a shared universe. To succeed on ToM-SB, the defender must engage with and form a ToM of the attacker, with a goal of fooling the attacker into believing they have succeeded in extracting sensitive information. We find that strong frontier models like Gemini3-Pro and GPT-5.4 struggle on ToM-SB, often failing to fool attackers in hard scenarios with partial attacker prior knowledge, even when prompted to reason about the attacker's beliefs (ToM prompting). To close this gap, we train models on ToM-SB to act as AI Double Agents using reinforcement learning, testing both fooling and ToM rewards. Notably, we find a bidirectionally emergent relationship between ToM and attacker-fooling: rewarding fooling success alone improves ToM, and rewarding ToM alone improves fooling. Across four attackers with different strengths, six defender methods, and both in-distribution and out-of-distribution (OOD) evaluation, we find that gains in ToM and attacker-fooling are well-correlated, highlighting belief modeling as a key driver of success on ToM-SB. AI Double Agents that combine both ToM and fooling rewards yield the strongest fooling and ToM performance, outperforming Gemini3-Pro and GPT-5.4 with ToM prompting on hard scenarios. We also show that ToM-SB and AI Double Agents can be extended to stronger attackers, demonstrating generalization to OOD settings and the upgradability of our task.

Jogando Junto: Aprendendo um Defensor Duplo-Agente para Direcionamento de Crenças via Teoria da Mente

Playing Along: Learning a Double-Agent Defender for Belief Steering via Theory of Mind

Resumo

Support