Wanneer agenten te vroeg committeren: het diagnosticeren van premature commitment in LLM-agenten

Samenvatting

LLM-agenten met een lange horizon kunnen stilletjes falen: ze raken vroeg gecommitteerd aan één interpretatie van het bewijs en besteden de rest van de run aan het verdedigen daarvan. Dit noemen we voortijdige committering. Beoordeling van het uiteindelijke antwoord mist deze faalwijze omdat het alleen het antwoord ziet, niet of het proces al is ingestort op een stabiel pad. We definiëren representationale committering als cross-run convergentie van verborgen toestanden op een vaste redeneerstap, en gebruiken het als een vroege diagnostiek van trajectconsistentie. Op Llama-3.1-70B met ReAct op HotpotQA voorspelt de gelijkenis van verborgen toestanden op stap 4 stroomafwaartse gedragsconsistentie (r = -0,35, partiële r = -0,45), met een gelokaliseerde temporele en laagsgewijze signatuur. Het signaal repliceert over Qwen-2.5-72B en Phi-3-14B, en op StrategyQA (r = -0,83). Het volgt geen correctheid: vragen met een foutieve committering en vragen met een correcte committering zijn niet te scheiden op basis van activatiegelijkenis. Die grens is centraal in de bewering. Committering vertelt ons of een agent zich heeft vastgelegd, niet of het gelijk heeft. Een runtime monitor detecteert inconsistente trajecten uit verborgen toestanden met een AUROC tot 0,97 (0,85–0,88 onder een strengere splitsing), en een prompting-interventie vermindert gedragsvariantie met 28% ten opzichte van een op tokens gematchte controle, terwijl de nauwkeurigheid statistisch ongewijzigd blijft. We testen ook of het signaal self-consistentieberekening kan sturen; op een moeilijkere benchmark helpt het slechts bescheiden en wordt het geëvenaard door een eenvoudigere op output gebaseerde baseline. Het resultaat is een diagnostiek voor een verborgen procesfout, met duidelijke beperkingen in plaats van een algemene nauwkeurigheidshendel.

English

Long-horizon LLM agents can fail quietly: they settle on one reading of the evidence early, then spend the rest of the run defending it. We call this premature commitment. Final-answer scoring misses the failure mode because it sees only the answer, not whether the process has already collapsed to a stable path. We define representational commitment as cross-run hidden-state convergence at a fixed reasoning step, and use it as an early diagnostic of trajectory consistency. On Llama-3.1-70B running ReAct on HotpotQA, step-4 hidden-state similarity predicts downstream behavioral consistency (r = -0.35, partial r = -0.45), with a localized temporal and layer-wise signature. The signal replicates across Qwen-2.5-72B and Phi-3-14B, and on StrategyQA (r = -0.83). It does not track correctness: committed-wrong and committed-correct questions are not separable in activation similarity. That boundary is central to the claim. Commitment tells us whether an agent has settled, not whether it is right. A runtime monitor detects inconsistent trajectories from hidden states at AUROC up to 0.97 (0.85--0.88 under a stricter split), and a prompting intervention cuts behavioral variance by 28% against a token-matched control while leaving accuracy statistically unchanged. We also test whether the signal can route self-consistency compute; on a harder benchmark it helps only modestly and is matched by a simpler output-based baseline. The result is a diagnostic for a hidden process failure, with clear limits rather than a general accuracy lever.