La cohérence amplifie : comment la variance comportementale façonne la précision des agents

Résumé

Alors que les agents basés sur LLM sont déployés dans des systèmes de production, la compréhension de leur cohérence comportementale (c'est-à-dire s'ils produisent des séquences d'actions similaires face à des tâches identiques) devient cruciale pour la fiabilité. Nous étudions cette cohérence dans le contexte de SWE-bench, un benchmark exigeant en ingénierie logicielle qui nécessite un raisonnement complexe et multi-étapes. En comparant Claude~4.5~Sonnet, GPT-5 et Llama-3.1-70B sur 50 exécutions chacun (10 tâches multipliées par 5 exécutions), nous constatons qu'à travers les modèles, une plus grande cohérence est corrélée à une plus grande précision : Claude obtient la variance la plus faible (CV : 15,2 %) et la précision la plus élevée (58 %), GPT-5 se situe à un niveau intermédiaire (CV : 32,2 %, précision : 32 %), et Llama présente la variance la plus élevée (CV : 47,0 %) avec la précision la plus faible (4 %). Cependant, pour un modèle donné, la cohérence peut amplifier à la fois les interprétations correctes et incorrectes. Notre analyse révèle une nuance cruciale : la cohérence amplifie les résultats plutôt que de garantir leur exactitude. 71 % des échecs de Claude proviennent d'une « interprétation erronée cohérente » : faire la même hypothèse incorrecte dans toutes les exécutions. Il est intéressant de noter que GPT-5 atteint un accord stratégique initial similaire à celui de Claude (divergence à l'étape 3,4 contre 3,2), mais présente une variance 2,1 fois plus élevée, suggérant que le moment de la divergence seul ne détermine pas la cohérence. Ces résultats indiquent que pour un déploiement en production, la précision de l'interprétation est plus importante que la cohérence d'exécution, avec des implications pour l'évaluation et l'entraînement des agents.

English

As LLM-based agents are deployed in production systems, understanding their behavioral consistency (whether they produce similar action sequences when given identical tasks) becomes critical for reliability. We study consistency in the context of SWE-bench, a challenging software engineering benchmark requiring complex, multi-step reasoning. Comparing Claude~4.5~Sonnet, GPT-5, and Llama-3.1-70B across 50 runs each (10 tasks times 5 runs), we find that across models, higher consistency aligns with higher accuracy: Claude achieves the lowest variance (CV: 15.2\%) and highest accuracy (58\%), GPT-5 is intermediate (CV: 32.2\%, accuracy: 32\%), and Llama shows the highest variance (CV: 47.0\%) with lowest accuracy (4\%). However, within a model, consistency can amplify both correct and incorrect interpretations. Our analysis reveals a critical nuance: consistency amplifies outcomes rather than guaranteeing correctness. 71\% of Claude's failures stem from "consistent wrong interpretation": making the same incorrect assumption across all runs. Interestingly, GPT-5 achieves similar early strategic agreement as Claude (diverging at step 3.4 vs.\ 3.2) but exhibits 2.1times higher variance, suggesting that divergence timing alone does not determine consistency. These findings suggest that for production deployment, interpretation accuracy matters more than execution consistency, with implications for agent evaluation and training.

La cohérence amplifie : comment la variance comportementale façonne la précision des agents

Consistency Amplifies: How Behavioral Variance Shapes Agent Accuracy

Résumé

Support