Konsistenz verstärkt: Wie Verhaltensvarianz die Genauigkeit von Agenten beeinflusst

Zusammenfassung

Da LLM-basierte Agenten in Produktionssystemen eingesetzt werden, wird das Verständnis ihrer Verhaltenskonsistenz – ob sie bei identischen Aufgaben ähnliche Aktionssequenzen erzeugen – entscheidend für die Zuverlässigkeit. Wir untersuchen die Konsistenz im Kontext von SWE-bench, einem anspruchsvollen Software-Engineering-Benchmark, der komplexe, mehrstufige Denkprozesse erfordert. Ein Vergleich von Claude~4.5~Sonnet, GPT-5 und Llama-3.1-70B über jeweils 50 Durchläufe (10 Aufgaben mal 5 Durchläufe) zeigt, dass über alle Modelle hinweg eine höhere Konsistenz mit einer höheren Genauigkeit einhergeht: Claude erreicht die geringste Varianz (CV: 15,2 %) und die höchste Genauigkeit (58 %), GPT-5 liegt im Mittelfeld (CV: 32,2 %, Genauigkeit: 32 %), und Llama weist die höchste Varianz (CV: 47,0 %) bei der geringsten Genauigkeit (4 %) auf. Innerhalb eines Modells kann Konsistenz jedoch sowohl korrekte als auch falsche Interpretationen verstärken. Unsere Analyse zeigt eine entscheidende Nuance: Konsistenz verstärkt Ergebnisse, anstatt Korrektheit zu garantieren. 71 % von Claudes Fehlschlägen gehen auf eine „konsistent falsche Interpretation“ zurück: Es wird in allen Durchläufen die gleiche falsche Annahme getroffen. Interessanterweise erreicht GPT-5 eine ähnlich hohe frühe strategische Übereinstimmung wie Claude (Abweichung ab Schritt 3,4 vs. 3,2), zeigt aber eine 2,1-mal höhere Varianz, was darauf hindeutet, dass der Zeitpunkt der Abweichung allein die Konsistenz nicht bestimmt. Diese Ergebnisse legen nahe, dass für den Produktionseinsatz die Interpretationsgenauigkeit wichtiger ist als die Ausführungskonsistenz, mit Implikationen für die Evaluierung und das Training von Agenten.

English

As LLM-based agents are deployed in production systems, understanding their behavioral consistency (whether they produce similar action sequences when given identical tasks) becomes critical for reliability. We study consistency in the context of SWE-bench, a challenging software engineering benchmark requiring complex, multi-step reasoning. Comparing Claude~4.5~Sonnet, GPT-5, and Llama-3.1-70B across 50 runs each (10 tasks times 5 runs), we find that across models, higher consistency aligns with higher accuracy: Claude achieves the lowest variance (CV: 15.2\%) and highest accuracy (58\%), GPT-5 is intermediate (CV: 32.2\%, accuracy: 32\%), and Llama shows the highest variance (CV: 47.0\%) with lowest accuracy (4\%). However, within a model, consistency can amplify both correct and incorrect interpretations. Our analysis reveals a critical nuance: consistency amplifies outcomes rather than guaranteeing correctness. 71\% of Claude's failures stem from "consistent wrong interpretation": making the same incorrect assumption across all runs. Interestingly, GPT-5 achieves similar early strategic agreement as Claude (diverging at step 3.4 vs.\ 3.2) but exhibits 2.1times higher variance, suggesting that divergence timing alone does not determine consistency. These findings suggest that for production deployment, interpretation accuracy matters more than execution consistency, with implications for agent evaluation and training.

Konsistenz verstärkt: Wie Verhaltensvarianz die Genauigkeit von Agenten beeinflusst

Consistency Amplifies: How Behavioral Variance Shapes Agent Accuracy

Zusammenfassung

Support