Wann sollten Modelle ihre Überzeugungen ändern? Kontextuelles Überzeugungsmanagement in großen Sprachmodellen

Zusammenfassung

Langzeitinteraktionen erfordern, dass Sprachmodelle akkumulierte Informationen verwalten: wann sie ihren Zustand aktualisieren, wann sie ihn beibehalten und was ignoriert werden soll. Wir untersuchen diese Herausforderung als Kontextuelles Glaubensmanagement (Contextual Belief Management, CBM): die Aufrechterhaltung eines vorhergesagten Glaubenszustands, der mit formalen Evidenzen übereinstimmt, während aufgabenirrelevantes Rauschen isoliert wird. Um CBM messbar zu machen, führen wir BeliefTrack ein, eine abgeschlossene Benchmark-Umgebung, die Regelentdeckung und Schaltkreisdiagnose umfasst, wobei ein endlicher Glaubensraum und symbolische Verifikatoren eine genaue Evaluation auf Zug-Ebene ermöglichen. BeliefTrack diagnostiziert drei Fehlertypen: Fehlschlag beim Beibehalten (Failed Stay), Fehlschlag beim Aktualisieren (Failed Update) und Fehlschlag beim Isolieren (Failed Isolation). Über mehrere LLMs hinweg zeigen Standardmodelle schwerwiegende CBM-Fehler, während explizite glaubensverfolgende Prompts nur begrenzte Verbesserungen erzielen. Im Gegensatz dazu reduziert bestärkendes Lernen mit Belohnungen basierend auf dem Glaubenszustand die Fehlerraten im Durchschnitt um 70,9 %. Weitere Untersuchungen decken latente Dynamiken des Glaubenszustands hinter diesen Fehlern auf, und Steuerung auf Repräsentationsebene reduziert die Fehlerraten bei zwei Aufgaben um 46,1 %⁠\footnote{Code wird demnächst unter https://github.com/zjunlp/CBM veröffentlicht.}.

English

Long-horizon interactions require language models to manage accumulating information: when to update their state, when to preserve their state, and what to ignore. We study this challenge as Contextual Belief Management (CBM): maintaining a predicted belief state aligned with formal evidence while isolating task-irrelevant noise. To make CBM measurable, we introduce BeliefTrack, a closed-world benchmark spanning Rule Discovery and Circuit Diagnosis, where a finite belief space and symbolic verifiers enable exact turn-level evaluation. BeliefTrack diagnoses three failures: Failed Stay, Failed Update, and Failed Isolation. Across multiple LLMs, vanilla models exhibit severe CBM failures, while explicit belief-tracking prompts provide limited gains. In contrast, reinforcement learning with belief-state rewards reduces failure rates by 70.9\% on average. Further probing reveals latent belief-state dynamics behind these failures, and representation-level steering reduces failure rates by 46.1\% across two tasks\footnote{Code is coming soon at https://github.com/zjunlp/CBM.