ウェブエージェント機能の構造化蒸留による一般化能力の実現
Structured Distillation of Web Agent Capabilities Enables Generalization
April 9, 2026
著者: Xing Han Lù, Siva Reddy
cs.AI
要旨
最先端の大規模言語モデル(LLM)は複雑なウェブサイトを操作可能だが、コスト面やサードパーティAPIへの依存の問題から、ローカル環境への展開は非現実的である。本研究では、人間のアノテーター役になぞらえて合成軌道生成を構造化する「Agent-as-Annotators」フレームワークを提案する。これは、タスク設計者、アノテーター、監督者をモジュール化されたLLMコンポーネントで置き換えるものである。教師モデルにGemini 3 Proを用いて6種類のウェブ環境で3,000件の軌道を生成し、品質フィルタリングを通過した2,322件に対して9Bパラメータの学生モデルを純粋な教師あり学習でファインチューニングした。その結果、WebArenaにおいて41.5%のスコアを達成し、同じ評価プロトコル下でのClaude 3.5 Sonnet(36.0%)やGPT-4o(31.5%)などのクローズドソースモデルを上回り、従来の最高のオープンウェイト結果(Go-Browse, 21.7%)を約2倍に更新した。この能力は未見環境にも転移し、トレーニング時に一切使用していない企業プラットフォームであるWorkArena L1では18.2ポイントの向上を示し、その他3つのベンチマークでも一貫した改善が確認された。アブレーションスタディにより、Judgeフィルタリング、評価ヒント、推論トレースの各パイプラインコンポーネントがそれぞれ有意な寄与を持ち、測定可能な性能向上をもたらすことが確認された。これらの結果は、単一の最先端教師モデルによる構造化された軌道合成が、競争力のあるローカル展開可能なウェブエージェントの生成に十分であることを示唆している。プロジェクトページ: https://agent-as-annotators.github.io
English
Frontier LLMs can navigate complex websites, but their cost and reliance on third-party APIs make local deployment impractical. We introduce Agent-as-Annotators, a framework that structures synthetic trajectory generation for web agents by analogy to human annotation roles, replacing the Task Designer, Annotator, and Supervisor with modular LLM components. Using Gemini 3 Pro as teacher, we generate 3,000 trajectories across six web environments and fine-tune a 9B-parameter student with pure supervised learning on the 2,322 that pass quality filtering. The resulting model achieves 41.5% on WebArena, surpassing closed-source models such as Claude 3.5 Sonnet (36.0%) and GPT-4o (31.5%) under the same evaluation protocol, and nearly doubling the previous best open-weight result (Go-Browse, 21.7%). Capabilities transfer to unseen environments, with an 18.2 percentage point gain on WorkArena L1 (an enterprise platform never seen during training) and consistent improvements across three additional benchmarks. Ablations confirm that each pipeline component contributes meaningfully, with Judge filtering, evaluation hints, and reasoning traces each accounting for measurable gains. These results demonstrate that structured trajectory synthesis from a single frontier teacher is sufficient to produce competitive, locally deployable web agents. Project page: https://agent-as-annotators.github.io