ChatPaper.aiChatPaper

Wanneer moeten modellen van mening veranderen? Contextueel beheer van overtuigingen in grote taalmodellen

When Should Models Change Their Minds? Contextual Belief Management in Large Language Models

May 28, 2026
Auteurs: Haoming Xu, Weihong Xu, Zongrui Li, Mengru Wang, Yunzhi Yao, Chiyu Wu, Jin Shang, Yu Gong, Shumin Deng
cs.AI

Samenvatting

Langetermijninteracties vereisen dat taalmodellen het accumuleren van informatie beheren: wanneer moeten ze hun toestand bijwerken, wanneer moeten ze deze behouden en wat moeten ze negeren. We bestuderen deze uitdaging als Contextueel Beheer van Geloofstoestanden (CBM): het onderhouden van een voorspelde geloofstoestand die aansluit bij formeel bewijs, terwijl taakirrelevante ruis wordt geïsoleerd. Om CBM meetbaar te maken, introduceren we BeliefTrack, een gesloten-wereldbenchmark die Regelontdekking en Circuitdiagnose omvat, waarbij een eindige geloofsruimte en symbolische verificatoren een exacte evaluatie op beurtniveau mogelijk maken. BeliefTrack identificeert drie falen: Mislukt Blijven, Mislukt Bijwerken en Mislukt Isoleren. Bij meerdere LLM's vertonen standaardmodellen ernstige CBM-falen, terwijl expliciete prompts voor geloofsvolg beperkte winst opleveren. Daarentegen vermindert versterkingsleren met beloningen voor geloofstoestand de faalpercentages gemiddeld met 70,9%. Verder onderzoek onthult latente dynamiek van geloofstoestanden achter deze falen, en sturing op representatieniveau verlaagt de faalpercentages met 46,1% over twee taken\footnote{Code is binnenkort beschikbaar op https://github.com/zjunlp/CBM.}.
English
Long-horizon interactions require language models to manage accumulating information: when to update their state, when to preserve their state, and what to ignore. We study this challenge as Contextual Belief Management (CBM): maintaining a predicted belief state aligned with formal evidence while isolating task-irrelevant noise. To make CBM measurable, we introduce BeliefTrack, a closed-world benchmark spanning Rule Discovery and Circuit Diagnosis, where a finite belief space and symbolic verifiers enable exact turn-level evaluation. BeliefTrack diagnoses three failures: Failed Stay, Failed Update, and Failed Isolation. Across multiple LLMs, vanilla models exhibit severe CBM failures, while explicit belief-tracking prompts provide limited gains. In contrast, reinforcement learning with belief-state rewards reduces failure rates by 70.9\% on average. Further probing reveals latent belief-state dynamics behind these failures, and representation-level steering reduces failure rates by 46.1\% across two tasks\footnote{Code is coming soon at https://github.com/zjunlp/CBM.