Quando os Modelos Devem Mudar de Ideia? Gestão Contextual de Crenças em Grandes Modelos de Linguagem
When Should Models Change Their Minds? Contextual Belief Management in Large Language Models
May 28, 2026
Autores: Haoming Xu, Weihong Xu, Zongrui Li, Mengru Wang, Yunzhi Yao, Chiyu Wu, Jin Shang, Yu Gong, Shumin Deng
cs.AI
Resumo
Interações de longo horizonte exigem que modelos de linguagem gerenciem informações acumuladas: quando atualizar seu estado, quando preservá-lo e o que ignorar. Estudamos esse desafio como Gerenciamento de Crenças Contextuais (CBM): manter um estado de crença previsto alinhado com evidências formais, isolando ruídos irrelevantes à tarefa. Para tornar o CBM mensurável, introduzimos o BeliefTrack, um benchmark de mundo fechado que abrange Descoberta de Regras e Diagnóstico de Circuitos, onde um espaço de crença finito e verificadores simbólicos permitem avaliação exata em nível de turno. O BeliefTrack diagnostica três falhas: Falha de Permanência, Falha de Atualização e Falha de Isolamento. Em vários LLMs, modelos vanilla apresentam falhas severas de CBM, enquanto prompts explícitos de rastreamento de crenças oferecem ganhos limitados. Em contraste, o aprendizado por reforço com recompensas de estado de crença reduz as taxas de falha em média 70,9%. Investigações adicionais revelam dinâmicas latentes do estado de crença por trás dessas falhas, e o direcionamento em nível de representação reduz as taxas de falha em 46,1% nas duas tarefas\footnote{O código estará disponível em breve em https://github.com/zjunlp/CBM.}.
English
Long-horizon interactions require language models to manage accumulating information: when to update their state, when to preserve their state, and what to ignore. We study this challenge as Contextual Belief Management (CBM): maintaining a predicted belief state aligned with formal evidence while isolating task-irrelevant noise. To make CBM measurable, we introduce BeliefTrack, a closed-world benchmark spanning Rule Discovery and Circuit Diagnosis, where a finite belief space and symbolic verifiers enable exact turn-level evaluation. BeliefTrack diagnoses three failures: Failed Stay, Failed Update, and Failed Isolation. Across multiple LLMs, vanilla models exhibit severe CBM failures, while explicit belief-tracking prompts provide limited gains. In contrast, reinforcement learning with belief-state rewards reduces failure rates by 70.9\% on average. Further probing reveals latent belief-state dynamics behind these failures, and representation-level steering reduces failure rates by 46.1\% across two tasks\footnote{Code is coming soon at https://github.com/zjunlp/CBM.