Quando os Modelos Devem Mudar de Ideia? Gestão Contextual de Crenças em Grandes Modelos de Linguagem

Resumo

Interações de longo horizonte exigem que modelos de linguagem gerenciem informações acumuladas: quando atualizar seu estado, quando preservá-lo e o que ignorar. Estudamos esse desafio como Gerenciamento de Crenças Contextuais (CBM): manter um estado de crença previsto alinhado com evidências formais, isolando ruídos irrelevantes à tarefa. Para tornar o CBM mensurável, introduzimos o BeliefTrack, um benchmark de mundo fechado que abrange Descoberta de Regras e Diagnóstico de Circuitos, onde um espaço de crença finito e verificadores simbólicos permitem avaliação exata em nível de turno. O BeliefTrack diagnostica três falhas: Falha de Permanência, Falha de Atualização e Falha de Isolamento. Em vários LLMs, modelos vanilla apresentam falhas severas de CBM, enquanto prompts explícitos de rastreamento de crenças oferecem ganhos limitados. Em contraste, o aprendizado por reforço com recompensas de estado de crença reduz as taxas de falha em média 70,9%. Investigações adicionais revelam dinâmicas latentes do estado de crença por trás dessas falhas, e o direcionamento em nível de representação reduz as taxas de falha em 46,1% nas duas tarefas\footnote{O código estará disponível em breve em https://github.com/zjunlp/CBM.}.

English

Long-horizon interactions require language models to manage accumulating information: when to update their state, when to preserve their state, and what to ignore. We study this challenge as Contextual Belief Management (CBM): maintaining a predicted belief state aligned with formal evidence while isolating task-irrelevant noise. To make CBM measurable, we introduce BeliefTrack, a closed-world benchmark spanning Rule Discovery and Circuit Diagnosis, where a finite belief space and symbolic verifiers enable exact turn-level evaluation. BeliefTrack diagnoses three failures: Failed Stay, Failed Update, and Failed Isolation. Across multiple LLMs, vanilla models exhibit severe CBM failures, while explicit belief-tracking prompts provide limited gains. In contrast, reinforcement learning with belief-state rewards reduces failure rates by 70.9\% on average. Further probing reveals latent belief-state dynamics behind these failures, and representation-level steering reduces failure rates by 46.1\% across two tasks\footnote{Code is coming soon at https://github.com/zjunlp/CBM.