Когда модели должны менять свое мнение? Контекстное управление убеждениями в больших языковых моделях
When Should Models Change Their Minds? Contextual Belief Management in Large Language Models
May 28, 2026
Авторы: Haoming Xu, Weihong Xu, Zongrui Li, Mengru Wang, Yunzhi Yao, Chiyu Wu, Jin Shang, Yu Gong, Shumin Deng
cs.AI
Аннотация
Взаимодействия на длинных горизонтах требуют от языковых моделей управления накапливаемой информацией: когда обновлять свое состояние, когда сохранять его, а что игнорировать. Мы изучаем эту проблему как Контекстуальное управление убеждениями (CBM): поддержание предсказанного состояния убеждений, согласованного с формальными свидетельствами, при изоляции нерелевантного для задачи шума. Чтобы сделать CBM измеримым, мы представляем BeliefTrack — эталон с замкнутым миром, охватывающий Обнаружение правил и Диагностику цепей, где конечное пространство убеждений и символьные верификаторы позволяют проводить точную пошаговую оценку. BeliefTrack диагностирует три типа ошибок: Ошибка сохранения, Ошибка обновления и Ошибка изоляции. На множестве LLM ванильные модели демонстрируют серьезные ошибки CBM, в то время как явные подсказки для отслеживания убеждений дают ограниченные улучшения. Напротив, обучение с подкреплением с наградами за состояние убеждений снижает частоту ошибок в среднем на 70,9%. Дальнейшее исследование выявляет скрытую динамику состояния убеждений, стоящую за этими ошибками, а управление на уровне представлений снижает частоту ошибок на 46,1% по двум задачам\footnote{Код будет доступен в ближайшее время по адресу https://github.com/zjunlp/CBM.}.
English
Long-horizon interactions require language models to manage accumulating information: when to update their state, when to preserve their state, and what to ignore. We study this challenge as Contextual Belief Management (CBM): maintaining a predicted belief state aligned with formal evidence while isolating task-irrelevant noise. To make CBM measurable, we introduce BeliefTrack, a closed-world benchmark spanning Rule Discovery and Circuit Diagnosis, where a finite belief space and symbolic verifiers enable exact turn-level evaluation. BeliefTrack diagnoses three failures: Failed Stay, Failed Update, and Failed Isolation. Across multiple LLMs, vanilla models exhibit severe CBM failures, while explicit belief-tracking prompts provide limited gains. In contrast, reinforcement learning with belief-state rewards reduces failure rates by 70.9\% on average. Further probing reveals latent belief-state dynamics behind these failures, and representation-level steering reduces failure rates by 46.1\% across two tasks\footnote{Code is coming soon at https://github.com/zjunlp/CBM.