エージェンシック評価におけるランダム性について
On Randomness in Agentic Evals
February 6, 2026
著者: Bjarni Haukur Bjarnason, André Silva, Martin Monperrus
cs.AI
要旨
エージェントシステムの評価は、エージェントが環境と相互作用してタスクを解決するベンチマークで行われる。多くの論文では、タスクごとに単一の実行から算出されたpass@1スコアが報告され、これが信頼性の高い性能推定値を提供すると仮定されている。我々はこの仮定を検証するため、SWE-Bench-Verifiedにおいて3つのモデルと2つのスキャフォールドにまたがる60,000のエージェント軌道を収集した。その結果、大幅な分散が認められた:単一実行のpass@1推定値は、どの実行を選択するかに応じて2.2から6.0パーセントポイント変動し、温度0においても標準偏差は1.5パーセントポイントを超えた。この分散は重大な意味を持つ:報告される2~3パーセントポイントの改善は、真のアルゴリズム的進歩ではなく、評価ノイズを反映している可能性がある。トークンレベルの分析を通じて、軌道は早期(多くの場合、最初の数パーセントのトークン内)に分岐し、これらの小さな差異が異なる解決戦略へと連鎖することを示す。エージェントシステムの信頼性の高い評価を実現するため、我々は以下3つの具体的な実践を推奨する:(1) 特に小幅な改善を測定する場合、タスクごとに複数の独立した実行からpass@1を推定する、(2) 期待される効果量を検出するために必要な実行数を統計的検定力分析を用いて決定する、(3) k>1としたpass@k(楽観的下限)やpass^k(悲観的下限)などの指標を検討し、性能エンベロープ全体をより適切に特徴付ける。これらの実践は評価コストを増加させるが、統計的ノイズと真の科学的進歩を区別する上で不可欠である。
English
Agentic systems are evaluated on benchmarks where agents interact with environments to solve tasks. Most papers report a pass@1 score computed from a single run per task, assuming this gives a reliable performance estimate. We test this assumption by collecting 60,000 agentic trajectories on SWE-Bench-Verified, spanning three models and two scaffolds. We find substantial variance: single-run pass@1 estimates vary by 2.2 to 6.0 percentage points depending on which run is selected, with standard deviations exceeding 1.5 percentage points even at temperature 0. This variance has critical implications: reported improvements of 2--3 percentage points may reflect evaluation noise rather than genuine algorithmic progress. Through token-level analysis, we show that trajectories diverge early, often within the first few percent of tokens, and that these small differences cascade into different solution strategies. To enable reliable evaluation of agentic systems, we recommend three concrete practices: (1) estimate pass@1 from multiple independent runs per task, especially when measuring small improvements, (2) use statistical power analysis to determine the number of runs needed to detect expected effect sizes, and (3) consider metrics like pass@k (optimistic bound) and pass^k (pessimistic bound) with k>1 to better characterize the full performance envelope. While these practices increase evaluation cost, they are essential for distinguishing genuine scientific progress from statistical noise.