ChatPaper.aiChatPaper

一貫性が精度を高める:行動の分散がエージェントの正確性に与える影響

Consistency Amplifies: How Behavioral Variance Shapes Agent Accuracy

March 26, 2026
著者: Aman Mehta
cs.AI

要旨

LLMベースのエージェントが本番システムに導入されるにつれ、その行動の一貫性(同一タスクを与えられたときに類似した行動シーケンスを生成するかどうか)を理解することが信頼性の観点で重要となる。本研究では、複雑な多段階の推論を必要とするソフトウェアエンジニアリングのベンチマークであるSWE-benchをコンテキストとして一貫性を調査する。Claude 4.5 Sonnet、GPT-5、Llama-3.1-70Bを各50回(10タスク×5回)比較した結果、モデル間では、一貫性の高さは精度の高さと一致する:Claudeが最低の分散(CV: 15.2%)と最高の精度(58%)を達成し、GPT-5は中間(CV: 32.2%, 精度: 32%)、Llamaは最高の分散(CV: 47.0%)と最低の精度(4%)を示した。しかし、単一モデル内では、一貫性は正しい解釈と誤った解釈の両方を増幅し得る。分析により、一貫性は正確性を保証するのではなく、結果を増幅するという重要なニュアンスが明らかになった。Claudeの失敗の71%は「一貫した誤った解釈」、すなわち全ての実行において同一の誤った仮定を行うことに起因する。興味深いことに、GPT-5はClaudeと同程度の早期の戦略的一致(ステップ3.4 vs. 3.2で分歧)を達成するが、2.1倍高い分散を示し、分歧のタイミングのみが一貫性を決定するわけではないことを示唆している。これらの知見は、本番環境への導入においては、実行の一貫性よりも解釈の正確性が重要であることを示唆し、エージェントの評価と訓練に示唆を与える。
English
As LLM-based agents are deployed in production systems, understanding their behavioral consistency (whether they produce similar action sequences when given identical tasks) becomes critical for reliability. We study consistency in the context of SWE-bench, a challenging software engineering benchmark requiring complex, multi-step reasoning. Comparing Claude~4.5~Sonnet, GPT-5, and Llama-3.1-70B across 50 runs each (10 tasks times 5 runs), we find that across models, higher consistency aligns with higher accuracy: Claude achieves the lowest variance (CV: 15.2\%) and highest accuracy (58\%), GPT-5 is intermediate (CV: 32.2\%, accuracy: 32\%), and Llama shows the highest variance (CV: 47.0\%) with lowest accuracy (4\%). However, within a model, consistency can amplify both correct and incorrect interpretations. Our analysis reveals a critical nuance: consistency amplifies outcomes rather than guaranteeing correctness. 71\% of Claude's failures stem from "consistent wrong interpretation": making the same incorrect assumption across all runs. Interestingly, GPT-5 achieves similar early strategic agreement as Claude (diverging at step 3.4 vs.\ 3.2) but exhibits 2.1times higher variance, suggesting that divergence timing alone does not determine consistency. These findings suggest that for production deployment, interpretation accuracy matters more than execution consistency, with implications for agent evaluation and training.
PDF21April 3, 2026