La coerenza amplifica: come la varianza comportamentale modella l'accuratezza degli agenti

Abstract

Man mano che gli agenti basati su LLM vengono implementati in sistemi di produzione, comprendere la loro coerenza comportamentale (se producono sequenze di azioni simili quando ricevono compiti identici) diventa fondamentale per l'affidabilità. Studiamo la coerenza nel contesto di SWE-bench, un benchmark impegnativo per l'ingegneria del software che richiede ragionamenti complessi e multi-step. Confrontando Claude~4.5~Sonnet, GPT-5 e Llama-3.1-70B su 50 esecuzioni ciascuno (10 compiti per 5 esecuzioni), scopriamo che, tra i modelli, una maggiore coerenza si allinea con una maggiore accuratezza: Claude raggiunge la varianza più bassa (CV: 15,2%) e l'accuratezza più alta (58%), GPT-5 è intermedio (CV: 32,2%, accuratezza: 32%), e Llama mostra la varianza più alta (CV: 47,0%) con l'accuratezza più bassa (4%). Tuttavia, all'interno di un singolo modello, la coerenza può amplificare sia le interpretazioni corrette che quelle errate. La nostra analisi rivela una sfumatura critica: la coerenza amplifica i risultati piuttosto che garantirne la correttezza. Il 71% dei fallimenti di Claude deriva da un'"interpretazione errata coerente": fare la stessa assunzione errata in tutte le esecuzioni. È interessante notare che GPT-5 raggiunge un accordo strategico iniziale simile a Claude (divergendo al passo 3,4 contro 3,2) ma mostra una varianza 2,1 volte superiore, suggerendo che il solo momento della divergenza non determina la coerenza. Questi risultati suggeriscono che per la distribuzione in produzione, l'accuratezza interpretativa conta più della coerenza esecutiva, con implicazioni per la valutazione e l'addestramento degli agenti.

English

As LLM-based agents are deployed in production systems, understanding their behavioral consistency (whether they produce similar action sequences when given identical tasks) becomes critical for reliability. We study consistency in the context of SWE-bench, a challenging software engineering benchmark requiring complex, multi-step reasoning. Comparing Claude~4.5~Sonnet, GPT-5, and Llama-3.1-70B across 50 runs each (10 tasks times 5 runs), we find that across models, higher consistency aligns with higher accuracy: Claude achieves the lowest variance (CV: 15.2\%) and highest accuracy (58\%), GPT-5 is intermediate (CV: 32.2\%, accuracy: 32\%), and Llama shows the highest variance (CV: 47.0\%) with lowest accuracy (4\%). However, within a model, consistency can amplify both correct and incorrect interpretations. Our analysis reveals a critical nuance: consistency amplifies outcomes rather than guaranteeing correctness. 71\% of Claude's failures stem from "consistent wrong interpretation": making the same incorrect assumption across all runs. Interestingly, GPT-5 achieves similar early strategic agreement as Claude (diverging at step 3.4 vs.\ 3.2) but exhibits 2.1times higher variance, suggesting that divergence timing alone does not determine consistency. These findings suggest that for production deployment, interpretation accuracy matters more than execution consistency, with implications for agent evaluation and training.

La coerenza amplifica: come la varianza comportamentale modella l'accuratezza degli agenti

Consistency Amplifies: How Behavioral Variance Shapes Agent Accuracy

Abstract

Support