Consistentie Versterkt: Hoe Gedragsvariantie de Nauwkeurigheid van Agenten Vormt

Samenvatting

Naarmate op LLM gebaseerde agents in productiesystemen worden ingezet, wordt het begrip van hun gedragsconsistentie (of ze vergelijkbare actievolgordes produceren bij identieke taken) cruciaal voor betrouwbaarheid. Wij bestuderen consistentie in de context van SWE-bench, een uitdagende software-engineeringbenchmark die complexe, meerstaps redenering vereist. Door Claude 4.5 Sonnet, GPT-5 en Llama-3.1-70B te vergelijken over elk 50 runs (10 taken maal 5 runs), constateren we dat bij alle modellen hogere consistentie samengaat met hogere nauwkeurigheid: Claude behaalt de laagste variantie (CV: 15,2%) en hoogste nauwkeurigheid (58%), GPT-5 is intermediair (CV: 32,2%, nauwkeurigheid: 32%), en Llama toont de hoogste variantie (CV: 47,0%) met de laagste nauwkeurigheid (4%). Echter, binnen een model kan consistentie zowel correcte als incorrecte interpretaties versterken. Onze analyse onthult een cruciaal nuance: consistentie versterkt uitkomsten in plaats van correctheid te garanderen. 71% van Claude's fouten ontstaat door "consistente verkeerde interpretatie": het herhaaldelijk maken van dezelfde incorrecte aanname. Interessant is dat GPT-5 een vergelijkbare vroege strategische overeenkomst bereikt als Claude (afwijkend bij stap 3,4 versus 3,2), maar een 2,1 keer hogere variantie vertoont, wat suggereert dat enkel de timing van divergentie de consistentie niet bepaalt. Deze bevindingen suggereren dat voor productie-inzet de interpretatienauwkeurigheid belangrijker is dan uitvoeringsconsistentie, met implicaties voor de evaluatie en training van agents.

English

As LLM-based agents are deployed in production systems, understanding their behavioral consistency (whether they produce similar action sequences when given identical tasks) becomes critical for reliability. We study consistency in the context of SWE-bench, a challenging software engineering benchmark requiring complex, multi-step reasoning. Comparing Claude~4.5~Sonnet, GPT-5, and Llama-3.1-70B across 50 runs each (10 tasks times 5 runs), we find that across models, higher consistency aligns with higher accuracy: Claude achieves the lowest variance (CV: 15.2\%) and highest accuracy (58\%), GPT-5 is intermediate (CV: 32.2\%, accuracy: 32\%), and Llama shows the highest variance (CV: 47.0\%) with lowest accuracy (4\%). However, within a model, consistency can amplify both correct and incorrect interpretations. Our analysis reveals a critical nuance: consistency amplifies outcomes rather than guaranteeing correctness. 71\% of Claude's failures stem from "consistent wrong interpretation": making the same incorrect assumption across all runs. Interestingly, GPT-5 achieves similar early strategic agreement as Claude (diverging at step 3.4 vs.\ 3.2) but exhibits 2.1times higher variance, suggesting that divergence timing alone does not determine consistency. These findings suggest that for production deployment, interpretation accuracy matters more than execution consistency, with implications for agent evaluation and training.

Consistentie Versterkt: Hoe Gedragsvariantie de Nauwkeurigheid van Agenten Vormt

Consistency Amplifies: How Behavioral Variance Shapes Agent Accuracy

Samenvatting

Support