Quand les agents s'engagent trop tôt : Diagnostiquer l'engagement prématuré dans les agents LLM

Résumé

Les agents LLM à long horizon peuvent échouer silencieusement : ils se fixent précocement sur une interprétation des preuves, puis consacrent le reste de l'exécution à la défendre. Nous appelons cela l’engagement prématuré. La notation sur la réponse finale ne détecte pas ce mode d’échec car elle ne voit que la réponse, et non si le processus s’est déjà effondré sur un chemin stable. Nous définissons l’engagement représentationnel comme la convergence inter-exécutions des états cachés à une étape de raisonnement donnée, et l’utilisons comme diagnostic précoce de la cohérence de la trajectoire. Sur Llama-3.1‑70B exécutant ReAct sur HotpotQA, la similarité des états cachés à l’étape 4 prédit la cohérence comportementale en aval (r = −0,35, r partiel = −0,45), avec une signature temporelle et par couche localisée. Le signal se reproduit sur Qwen‑2.5‑72B et Phi‑3‑14B, ainsi que sur StrategyQA (r = −0,83). Il ne suit pas la correction : les questions erronées-engagées et correctes-engagées ne sont pas séparables par la similarité d’activation. Cette frontière est centrale à l’affirmation. L’engagement nous indique si un agent s’est fixé, non s’il a raison. Un moniteur d’exécution détecte les trajectoires incohérentes à partir des états cachés avec un AUROC allant jusqu’à 0,97 (0,85–0,88 sous une division plus stricte), et une intervention par amorçage réduit la variance comportementale de 28 % par rapport à un contrôle apparié en tokens, tout en laissant la précision statistiquement inchangée. Nous testons également si le signal peut orienter le calcul d’auto‑cohérence ; sur un benchmark plus difficile, il n’aide que modestement et est égalé par une référence plus simple basée sur les sorties. Le résultat est un diagnostic pour un dysfonctionnement caché du processus, avec des limites claires plutôt qu’un levier général de précision.

English

Long-horizon LLM agents can fail quietly: they settle on one reading of the evidence early, then spend the rest of the run defending it. We call this premature commitment. Final-answer scoring misses the failure mode because it sees only the answer, not whether the process has already collapsed to a stable path. We define representational commitment as cross-run hidden-state convergence at a fixed reasoning step, and use it as an early diagnostic of trajectory consistency. On Llama-3.1-70B running ReAct on HotpotQA, step-4 hidden-state similarity predicts downstream behavioral consistency (r = -0.35, partial r = -0.45), with a localized temporal and layer-wise signature. The signal replicates across Qwen-2.5-72B and Phi-3-14B, and on StrategyQA (r = -0.83). It does not track correctness: committed-wrong and committed-correct questions are not separable in activation similarity. That boundary is central to the claim. Commitment tells us whether an agent has settled, not whether it is right. A runtime monitor detects inconsistent trajectories from hidden states at AUROC up to 0.97 (0.85--0.88 under a stricter split), and a prompting intervention cuts behavioral variance by 28% against a token-matched control while leaving accuracy statistically unchanged. We also test whether the signal can route self-consistency compute; on a harder benchmark it helps only modestly and is matched by a simpler output-based baseline. The result is a diagnostic for a hidden process failure, with clear limits rather than a general accuracy lever.