Cuando los Agentes se Comprometen Demasiado Pronto: Diagnóstico del Compromiso Prematuro en Agentes LLM

Resumen

Los agentes LLM de horizonte largo pueden fallar silenciosamente: se asientan en una interpretación temprana de la evidencia y luego dedican el resto de la ejecución a defenderla. A esto lo llamamos compromiso prematuro. La puntuación de respuesta final pasa por alto este modo de fallo porque solo ve la respuesta, no si el proceso ya ha colapsado en una trayectoria estable. Definimos el compromiso representacional como la convergencia de estados ocultos entre ejecuciones en un paso de razonamiento fijo, y lo utilizamos como un diagnóstico temprano de la consistencia de la trayectoria. En Llama-3.1-70B ejecutando ReAct en HotpotQA, la similitud de estados ocultos en el paso 4 predice la consistencia conductual posterior (r = -0.35, r parcial = -0.45), con una firma localizada temporal y por capas. La señal se replica en Qwen-2.5-72B y Phi-3-14B, y en StrategyQA (r = -0.83). No sigue la corrección: las preguntas con compromiso erróneo y las de compromiso correcto no son separables en la similitud de activación. Esa frontera es central para la afirmación. El compromiso nos indica si un agente se ha asentado, no si tiene razón. Un monitor en tiempo de ejecución detecta trayectorias inconsistentes a partir de estados ocultos con AUROC de hasta 0.97 (0.85–0.88 bajo una división más estricta), y una intervención de indicaciones reduce la varianza conductual en un 28% en comparación con un control emparejado por tokens, mientras que la precisión se mantiene estadísticamente sin cambios. También probamos si la señal puede dirigir el cómputo de autoconsistencia; en un punto de referencia más difícil, ayuda solo modestamente y se iguala con una línea base más simple basada en salidas. El resultado es un diagnóstico para un fallo de proceso oculto, con límites claros, más que una palanca de precisión general.

English

Long-horizon LLM agents can fail quietly: they settle on one reading of the evidence early, then spend the rest of the run defending it. We call this premature commitment. Final-answer scoring misses the failure mode because it sees only the answer, not whether the process has already collapsed to a stable path. We define representational commitment as cross-run hidden-state convergence at a fixed reasoning step, and use it as an early diagnostic of trajectory consistency. On Llama-3.1-70B running ReAct on HotpotQA, step-4 hidden-state similarity predicts downstream behavioral consistency (r = -0.35, partial r = -0.45), with a localized temporal and layer-wise signature. The signal replicates across Qwen-2.5-72B and Phi-3-14B, and on StrategyQA (r = -0.83). It does not track correctness: committed-wrong and committed-correct questions are not separable in activation similarity. That boundary is central to the claim. Commitment tells us whether an agent has settled, not whether it is right. A runtime monitor detects inconsistent trajectories from hidden states at AUROC up to 0.97 (0.85--0.88 under a stricter split), and a prompting intervention cuts behavioral variance by 28% against a token-matched control while leaving accuracy statistically unchanged. We also test whether the signal can route self-consistency compute; on a harder benchmark it helps only modestly and is matched by a simpler output-based baseline. The result is a diagnostic for a hidden process failure, with clear limits rather than a general accuracy lever.