Когда агенты проявляют преждевременную приверженность: диагностика преждевременной приверженности в LLM-агентах

Аннотация

Агенты на базе больших языковых моделей, работающие на длинных горизонтах планирования, могут незаметно давать сбой: они преждевременно фиксируются на одной интерпретации данных, а затем тратят оставшееся время на её защиту. Мы называем это явление преждевременной фиксацией (premature commitment). Оценка по финальному ответу не выявляет данный вид отказа, поскольку учитывает только ответ, а не то, коллапсировал ли уже процесс в устойчивую траекторию. Мы определяем репрезентационную фиксацию (representational commitment) как конвергенцию скрытых состояний между различными прогонами на фиксированном шаге рассуждения и используем её в качестве раннего диагностического признака согласованности траектории. На модели Llama-3.1-70B, выполняющей ReAct на наборе HotpotQA, сходство скрытых состояний на шаге 4 предсказывает последующую поведенческую согласованность (r = -0.35, частный r = -0.45), демонстрируя локализованный временной и послойный паттерн. Этот сигнал воспроизводится на моделях Qwen-2.5-72B и Phi-3-14B, а также на наборе StrategyQA (r = -0.83). При этом он не отслеживает правильность: вопросы с ошибочной фиксацией и вопросы с верной фиксацией неразличимы по сходству активаций. Эта граница является центральной для нашего утверждения. Фиксация свидетельствует о том, устоялся ли агент в своём решении, а не о том, верно ли оно. Монитор времени выполнения, анализирующий скрытые состояния, выявляет несогласованные траектории с AUC-ROC до 0.97 (0.85–0.88 при более строгом разбиении), а вмешательство в виде специального промпта снижает поведенческую дисперсию на 28% по сравнению с контролем, основанным на сопоставлении токенов, оставляя точность статистически неизменной. Мы также проверяем, может ли этот сигнал направлять вычисления самосогласованности; на более сложном эталоне он даёт лишь скромный прирост и не превосходит более простой базовый метод, основанный на выходных данных. В итоге мы получаем диагностический метод для скрытого отказа процесса, обладающий чёткими ограничениями, а не универсальный рычаг повышения точности.

English

Long-horizon LLM agents can fail quietly: they settle on one reading of the evidence early, then spend the rest of the run defending it. We call this premature commitment. Final-answer scoring misses the failure mode because it sees only the answer, not whether the process has already collapsed to a stable path. We define representational commitment as cross-run hidden-state convergence at a fixed reasoning step, and use it as an early diagnostic of trajectory consistency. On Llama-3.1-70B running ReAct on HotpotQA, step-4 hidden-state similarity predicts downstream behavioral consistency (r = -0.35, partial r = -0.45), with a localized temporal and layer-wise signature. The signal replicates across Qwen-2.5-72B and Phi-3-14B, and on StrategyQA (r = -0.83). It does not track correctness: committed-wrong and committed-correct questions are not separable in activation similarity. That boundary is central to the claim. Commitment tells us whether an agent has settled, not whether it is right. A runtime monitor detects inconsistent trajectories from hidden states at AUROC up to 0.97 (0.85--0.88 under a stricter split), and a prompting intervention cuts behavioral variance by 28% against a token-matched control while leaving accuracy statistically unchanged. We also test whether the signal can route self-consistency compute; on a harder benchmark it helps only modestly and is matched by a simpler output-based baseline. The result is a diagnostic for a hidden process failure, with clear limits rather than a general accuracy lever.