Когда модели должны менять свое мнение? Контекстное управление убеждениями в больших языковых моделях

Аннотация

Взаимодействия на длинных горизонтах требуют от языковых моделей управления накапливаемой информацией: когда обновлять свое состояние, когда сохранять его, а что игнорировать. Мы изучаем эту проблему как Контекстуальное управление убеждениями (CBM): поддержание предсказанного состояния убеждений, согласованного с формальными свидетельствами, при изоляции нерелевантного для задачи шума. Чтобы сделать CBM измеримым, мы представляем BeliefTrack — эталон с замкнутым миром, охватывающий Обнаружение правил и Диагностику цепей, где конечное пространство убеждений и символьные верификаторы позволяют проводить точную пошаговую оценку. BeliefTrack диагностирует три типа ошибок: Ошибка сохранения, Ошибка обновления и Ошибка изоляции. На множестве LLM ванильные модели демонстрируют серьезные ошибки CBM, в то время как явные подсказки для отслеживания убеждений дают ограниченные улучшения. Напротив, обучение с подкреплением с наградами за состояние убеждений снижает частоту ошибок в среднем на 70,9%. Дальнейшее исследование выявляет скрытую динамику состояния убеждений, стоящую за этими ошибками, а управление на уровне представлений снижает частоту ошибок на 46,1% по двум задачам\footnote{Код будет доступен в ближайшее время по адресу https://github.com/zjunlp/CBM.}.

English

Long-horizon interactions require language models to manage accumulating information: when to update their state, when to preserve their state, and what to ignore. We study this challenge as Contextual Belief Management (CBM): maintaining a predicted belief state aligned with formal evidence while isolating task-irrelevant noise. To make CBM measurable, we introduce BeliefTrack, a closed-world benchmark spanning Rule Discovery and Circuit Diagnosis, where a finite belief space and symbolic verifiers enable exact turn-level evaluation. BeliefTrack diagnoses three failures: Failed Stay, Failed Update, and Failed Isolation. Across multiple LLMs, vanilla models exhibit severe CBM failures, while explicit belief-tracking prompts provide limited gains. In contrast, reinforcement learning with belief-state rewards reduces failure rates by 70.9\% on average. Further probing reveals latent belief-state dynamics behind these failures, and representation-level steering reduces failure rates by 46.1\% across two tasks\footnote{Code is coming soon at https://github.com/zjunlp/CBM.