La consistencia amplifica: cómo la varianza conductual moldea la precisión de los agentes

Resumen

A medida que los agentes basados en LLM se despliegan en sistemas de producción, comprender su consistencia conductual (si producen secuencias de acciones similares ante tareas idénticas) se vuelve crítico para la fiabilidad. Estudiamos la consistencia en el contexto de SWE-bench, un benchmark desafiante de ingeniería de software que requiere razonamiento complejo y multi-etapa. Comparando Claude~4.5~Sonnet, GPT-5 y Llama-3.1-70B en 50 ejecuciones cada uno (10 tareas multiplicadas por 5 ejecuciones), encontramos que, entre modelos, una mayor consistencia se alinea con una mayor precisión: Claude logra la varianza más baja (CV: 15.2\%) y la mayor precisión (58\%), GPT-5 es intermedio (CV: 32.2\%, precisión: 32\%), y Llama muestra la mayor varianza (CV: 47.0\%) con la precisión más baja (4\%). Sin embargo, dentro de un mismo modelo, la consistencia puede amplificar tanto las interpretaciones correctas como las incorrectas. Nuestro análisis revela un matiz crítico: la consistencia amplifica los resultados en lugar de garantizar la corrección. El 71\% de los fallos de Claude se originan en una "interpretación errónea consistente": realizar la misma suposición incorrecta en todas las ejecuciones. Curiosamente, GPT-5 alcanza un acuerdo estratégico inicial similar al de Claude (divergiendo en el paso 3.4 frente a 3.2) pero exhibe 2.1 veces más varianza, lo que sugiere que el momento de la divergencia por sí solo no determina la consistencia. Estos hallazgos sugieren que, para el despliegue en producción, la precisión de la interpretación importa más que la consistencia de la ejecución, con implicaciones para la evaluación y el entrenamiento de agentes.

English

As LLM-based agents are deployed in production systems, understanding their behavioral consistency (whether they produce similar action sequences when given identical tasks) becomes critical for reliability. We study consistency in the context of SWE-bench, a challenging software engineering benchmark requiring complex, multi-step reasoning. Comparing Claude~4.5~Sonnet, GPT-5, and Llama-3.1-70B across 50 runs each (10 tasks times 5 runs), we find that across models, higher consistency aligns with higher accuracy: Claude achieves the lowest variance (CV: 15.2\%) and highest accuracy (58\%), GPT-5 is intermediate (CV: 32.2\%, accuracy: 32\%), and Llama shows the highest variance (CV: 47.0\%) with lowest accuracy (4\%). However, within a model, consistency can amplify both correct and incorrect interpretations. Our analysis reveals a critical nuance: consistency amplifies outcomes rather than guaranteeing correctness. 71\% of Claude's failures stem from "consistent wrong interpretation": making the same incorrect assumption across all runs. Interestingly, GPT-5 achieves similar early strategic agreement as Claude (diverging at step 3.4 vs.\ 3.2) but exhibits 2.1times higher variance, suggesting that divergence timing alone does not determine consistency. These findings suggest that for production deployment, interpretation accuracy matters more than execution consistency, with implications for agent evaluation and training.

La consistencia amplifica: cómo la varianza conductual moldea la precisión de los agentes

Consistency Amplifies: How Behavioral Variance Shapes Agent Accuracy

Resumen

Support