Последовательность усиливает: как вариативность поведения влияет на точность агентов

Аннотация

По мере внедрения агентов на основе больших языковых моделей (LLM) в промышленные системы понимание их поведенческой согласованности (то есть, воспроизводят ли они схожие последовательности действий при выполнении идентичных задач) становится критически важным для обеспечения надежности. Мы исследуем согласованность в контексте SWE-bench, сложного инженерного бенчмарка для разработки программного обеспечения, требующего комплексных многошаговых рассуждений. Сравнивая модели Claude 4.5 Sonnet, GPT-5 и Llama-3.1-70B на 50 запусках каждой (10 задач × 5 запусков), мы обнаруживаем, что между моделями более высокая согласованность коррелирует с более высокой точностью: Claude демонстрирует наименьшую дисперсию (КВ: 15,2%) и наивысшую точность (58%), GPT-5 занимает промежуточное положение (КВ: 32,2%, точность: 32%), а Llama показывает наибольшую дисперсию (КВ: 47,0%) с наименьшей точностью (4%). Однако внутри одной модели согласованность может усиливать как правильные, так и ошибочные интерпретации. Наш анализ выявляет важный нюанс: согласованность усиливает результат, а не гарантирует его правильность. 71% ошибок Claude обусловлены «согласованной неверной интерпретацией»: повторением одного и того же неверного предположения во всех запусках. Примечательно, что GPT-5 достигает схожего с Claude уровня стратегического согласия на ранних этапах (расхождение на шаге 3,4 против 3,2), но демонстрирует в 2,1 раза более высокую дисперсию, что указывает на то, что лишь время расхождения не определяет согласованность. Эти результаты позволяют предположить, что для промышленного развертывания точность интерпретации важнее согласованности выполнения, что имеет implications для оценки и обучения агентов.

English

As LLM-based agents are deployed in production systems, understanding their behavioral consistency (whether they produce similar action sequences when given identical tasks) becomes critical for reliability. We study consistency in the context of SWE-bench, a challenging software engineering benchmark requiring complex, multi-step reasoning. Comparing Claude~4.5~Sonnet, GPT-5, and Llama-3.1-70B across 50 runs each (10 tasks times 5 runs), we find that across models, higher consistency aligns with higher accuracy: Claude achieves the lowest variance (CV: 15.2\%) and highest accuracy (58\%), GPT-5 is intermediate (CV: 32.2\%, accuracy: 32\%), and Llama shows the highest variance (CV: 47.0\%) with lowest accuracy (4\%). However, within a model, consistency can amplify both correct and incorrect interpretations. Our analysis reveals a critical nuance: consistency amplifies outcomes rather than guaranteeing correctness. 71\% of Claude's failures stem from "consistent wrong interpretation": making the same incorrect assumption across all runs. Interestingly, GPT-5 achieves similar early strategic agreement as Claude (diverging at step 3.4 vs.\ 3.2) but exhibits 2.1times higher variance, suggesting that divergence timing alone does not determine consistency. These findings suggest that for production deployment, interpretation accuracy matters more than execution consistency, with implications for agent evaluation and training.

Последовательность усиливает: как вариативность поведения влияет на точность агентов

Consistency Amplifies: How Behavioral Variance Shapes Agent Accuracy

Аннотация

Support