Quand les modèles devraient-ils changer d’avis ? Gestion contextuelle des croyances dans les grands modèles de langage

Résumé

Les interactions à long horizon nécessitent que les modèles de langage gèrent l'accumulation d'informations : quand mettre à jour leur état, quand le préserver, et quoi ignorer. Nous étudions ce défi sous l'angle de la Gestion de Croyances Contextuelles (CBM) : maintenir un état de croyance prédit aligné sur les preuves formelles tout en isolant le bruit non pertinent pour la tâche. Pour rendre la CBM mesurable, nous introduisons BeliefTrack, un benchmark en monde clos couvrant la Découverte de Règles et le Diagnostic de Circuits, où un espace de croyance fini et des vérificateurs symboliques permettent une évaluation exacte à chaque tour. BeliefTrack identifie trois échecs : Échec de Maintien, Échec de Mise à Jour et Échec d'Isolement. Sur plusieurs LLM, les modèles bruts présentent de graves échecs de CBM, tandis que les invites explicites de suivi de croyance apportent des gains limités. En revanche, l'apprentissage par renforcement avec des récompenses basées sur l'état de croyance réduit les taux d'échec de 70,9 % en moyenne. Des sondages supplémentaires révèlent une dynamique latente de l'état de croyance derrière ces échecs, et un guidage au niveau des représentations réduit les taux d'échec de 46,1 % sur deux tâches\footnote{Le code sera bientôt disponible sur https://github.com/zjunlp/CBM.}

English

Long-horizon interactions require language models to manage accumulating information: when to update their state, when to preserve their state, and what to ignore. We study this challenge as Contextual Belief Management (CBM): maintaining a predicted belief state aligned with formal evidence while isolating task-irrelevant noise. To make CBM measurable, we introduce BeliefTrack, a closed-world benchmark spanning Rule Discovery and Circuit Diagnosis, where a finite belief space and symbolic verifiers enable exact turn-level evaluation. BeliefTrack diagnoses three failures: Failed Stay, Failed Update, and Failed Isolation. Across multiple LLMs, vanilla models exhibit severe CBM failures, while explicit belief-tracking prompts provide limited gains. In contrast, reinforcement learning with belief-state rewards reduces failure rates by 70.9\% on average. Further probing reveals latent belief-state dynamics behind these failures, and representation-level steering reduces failure rates by 46.1\% across two tasks\footnote{Code is coming soon at https://github.com/zjunlp/CBM.