ChatPaper.aiChatPaper

모델은 언제 신념을 바꿔야 하는가? 대규모 언어 모델에서의 맥락적 신념 관리

When Should Models Change Their Minds? Contextual Belief Management in Large Language Models

May 28, 2026
저자: Haoming Xu, Weihong Xu, Zongrui Li, Mengru Wang, Yunzhi Yao, Chiyu Wu, Jin Shang, Yu Gong, Shumin Deng
cs.AI

초록

장기 상호작용에서는 언어 모델이 누적되는 정보를 효과적으로 관리해야 한다: 언제 상태를 갱신하고, 언제 상태를 유지하며, 무엇을 무시할지 결정하는 것이다. 본 연구에서는 이러한 과제를 문맥적 신념 관리(Contextual Belief Management, CBM)로 정의한다. 이는 형식적 증거와 일치하는 예측 신념 상태를 유지하면서, 과제와 무관한 잡음을 분리하는 과정이다. CBM을 측정 가능하게 만들기 위해, 유한한 신념 공간과 기호적 검증기를 활용하여 정확한 턴 수준 평가를 가능하게 하는 폐쇄 세계 벤치마크인 BeliefTrack을 도입한다. BeliefTrack은 세 가지 실패 유형, 즉 유지 실패(Failed Stay), 갱신 실패(Failed Update), 격리 실패(Failed Isolation)를 진단한다. 여러 LLM을 대상으로 한 실험에서, 기본 모델은 심각한 CBM 실패를 보였으며, 명시적 신념 추적 프롬프트는 제한적인 개선만을 제공했다. 반면, 신념 상태 보상을 활용한 강화 학습은 평균 실패율을 70.9% 감소시켰다. 추가 탐색을 통해 이러한 실패 배후의 잠재적 신념 상태 동역학이 밝혀졌으며, 표현 수준 조정을 통해 두 과제에서 평균 46.1%의 실패율 감소를 달성하였다\footnote{코드는 https://github.com/zjunlp/CBM에서 곧 공개 예정입니다.}.
English
Long-horizon interactions require language models to manage accumulating information: when to update their state, when to preserve their state, and what to ignore. We study this challenge as Contextual Belief Management (CBM): maintaining a predicted belief state aligned with formal evidence while isolating task-irrelevant noise. To make CBM measurable, we introduce BeliefTrack, a closed-world benchmark spanning Rule Discovery and Circuit Diagnosis, where a finite belief space and symbolic verifiers enable exact turn-level evaluation. BeliefTrack diagnoses three failures: Failed Stay, Failed Update, and Failed Isolation. Across multiple LLMs, vanilla models exhibit severe CBM failures, while explicit belief-tracking prompts provide limited gains. In contrast, reinforcement learning with belief-state rewards reduces failure rates by 70.9\% on average. Further probing reveals latent belief-state dynamics behind these failures, and representation-level steering reduces failure rates by 46.1\% across two tasks\footnote{Code is coming soon at https://github.com/zjunlp/CBM.