¿Cuándo deberían los modelos cambiar de opinión? Gestión de creencias contextuales en modelos de lenguaje de gran escala.

Resumen

Las interacciones de largo horizonte requieren que los modelos de lenguaje gestionen información acumulada: cuándo actualizar su estado, cuándo preservarlo y qué ignorar. Estudiamos este desafío como Gestión de Creencias Contextuales (CBM): mantener un estado de creencia predicho alineado con la evidencia formal mientras se aísla el ruido irrelevante para la tarea. Para hacer que CBM sea medible, presentamos BeliefTrack, un entorno de mundo cerrado que abarca el Descubrimiento de Reglas y el Diagnóstico de Circuitos, donde un espacio de creencias finito y verificadores simbólicos permiten una evaluación exacta a nivel de turno. BeliefTrack diagnostica tres fallos: Fallo de Permanencia, Fallo de Actualización y Fallo de Aislamiento. En múltiples LLMs, los modelos vanilla presentan fallos graves de CBM, mientras que las indicaciones explícitas de seguimiento de creencias ofrecen ganancias limitadas. En contraste, el aprendizaje por refuerzo con recompensas de estado de creencia reduce las tasas de fallo en un 70,9% de media. Un análisis más profundo revela dinámicas latentes del estado de creencia detrás de estos fallos, y el direccionamiento a nivel de representación reduce las tasas de fallo en un 46,1% en ambas tareas\footnote{El código estará disponible próximamente en https://github.com/zjunlp/CBM.}

English

Long-horizon interactions require language models to manage accumulating information: when to update their state, when to preserve their state, and what to ignore. We study this challenge as Contextual Belief Management (CBM): maintaining a predicted belief state aligned with formal evidence while isolating task-irrelevant noise. To make CBM measurable, we introduce BeliefTrack, a closed-world benchmark spanning Rule Discovery and Circuit Diagnosis, where a finite belief space and symbolic verifiers enable exact turn-level evaluation. BeliefTrack diagnoses three failures: Failed Stay, Failed Update, and Failed Isolation. Across multiple LLMs, vanilla models exhibit severe CBM failures, while explicit belief-tracking prompts provide limited gains. In contrast, reinforcement learning with belief-state rewards reduces failure rates by 70.9\% on average. Further probing reveals latent belief-state dynamics behind these failures, and representation-level steering reduces failure rates by 46.1\% across two tasks\footnote{Code is coming soon at https://github.com/zjunlp/CBM.