Wanneer moeten modellen van mening veranderen? Contextueel beheer van overtuigingen in grote taalmodellen

Samenvatting

Langetermijninteracties vereisen dat taalmodellen het accumuleren van informatie beheren: wanneer moeten ze hun toestand bijwerken, wanneer moeten ze deze behouden en wat moeten ze negeren. We bestuderen deze uitdaging als Contextueel Beheer van Geloofstoestanden (CBM): het onderhouden van een voorspelde geloofstoestand die aansluit bij formeel bewijs, terwijl taakirrelevante ruis wordt geïsoleerd. Om CBM meetbaar te maken, introduceren we BeliefTrack, een gesloten-wereldbenchmark die Regelontdekking en Circuitdiagnose omvat, waarbij een eindige geloofsruimte en symbolische verificatoren een exacte evaluatie op beurtniveau mogelijk maken. BeliefTrack identificeert drie falen: Mislukt Blijven, Mislukt Bijwerken en Mislukt Isoleren. Bij meerdere LLM's vertonen standaardmodellen ernstige CBM-falen, terwijl expliciete prompts voor geloofsvolg beperkte winst opleveren. Daarentegen vermindert versterkingsleren met beloningen voor geloofstoestand de faalpercentages gemiddeld met 70,9%. Verder onderzoek onthult latente dynamiek van geloofstoestanden achter deze falen, en sturing op representatieniveau verlaagt de faalpercentages met 46,1% over twee taken\footnote{Code is binnenkort beschikbaar op https://github.com/zjunlp/CBM.}.

English

Long-horizon interactions require language models to manage accumulating information: when to update their state, when to preserve their state, and what to ignore. We study this challenge as Contextual Belief Management (CBM): maintaining a predicted belief state aligned with formal evidence while isolating task-irrelevant noise. To make CBM measurable, we introduce BeliefTrack, a closed-world benchmark spanning Rule Discovery and Circuit Diagnosis, where a finite belief space and symbolic verifiers enable exact turn-level evaluation. BeliefTrack diagnoses three failures: Failed Stay, Failed Update, and Failed Isolation. Across multiple LLMs, vanilla models exhibit severe CBM failures, while explicit belief-tracking prompts provide limited gains. In contrast, reinforcement learning with belief-state rewards reduces failure rates by 70.9\% on average. Further probing reveals latent belief-state dynamics behind these failures, and representation-level steering reduces failure rates by 46.1\% across two tasks\footnote{Code is coming soon at https://github.com/zjunlp/CBM.