LLMウェブエージェントのトレーニング方法:統計的診断
How to Train Your LLM Web Agent: A Statistical Diagnosis
July 5, 2025
著者: Dheeraj Vattikonda, Santhoshi Ravichandran, Emiliano Penaloza, Hadi Nekoei, Megh Thakkar, Thibault Le Sellier de Chezelles, Nicolas Gontier, Miguel Muñoz-Mármol, Sahar Omidi Shayegan, Stefania Raimondo, Xue Liu, Alexandre Drouin, Laurent Charlin, Alexandre Piché, Alexandre Lacoste, Massimo Caccia
cs.AI
要旨
LLMベースのWebエージェントは最近大きな進展を遂げていますが、その多くはクローズドソースシステムで行われており、オープンソースの代替手段とのギャップが広がっています。この進展は、2つの主要な課題によって妨げられてきました。1つ目は、単一ステップのタスクに焦点を当てすぎて、多段階のWebインタラクションの複雑さを見落としていることです。2つ目は、LLMベースのWebエージェントをポストトレーニングするために必要な高い計算コストです。これに対処するため、我々はLLM Webエージェントのポストトレーニングにおける計算リソース配分に関する初の統計的根拠に基づいた研究を提示します。我々のアプローチは、Llama 3.1 8Bの学生モデルをLlama 3.3 70Bの教師モデルに模倣させるための教師あり微調整(SFT)を行い、その後オンポリシー強化学習(RL)を適用する2段階のパイプラインを使用します。このプロセスはハイパーパラメータの選択に非常に敏感であり、網羅的な探索は現実的ではありません。他の研究者が高コストな試行錯誤を避けられるよう、1,370の設定をサンプリングし、ブートストラップ法を用いて効果的なハイパーパラメータを推定しました。結果として、SFTとオンポリシーRLを組み合わせることで、WorkArenaとMiniWob++の両方で単独のアプローチを一貫して上回ることが示されました。さらに、この戦略はMiniWob++において純粋なSFTのピーク性能を達成するために必要な計算リソースの55%しか必要とせず、計算性能のパレートフロンティアを効果的に押し上げ、クローズドソースモデルとのギャップを埋める唯一の戦略となりました。
English
LLM-based web agents have recently made significant progress, but much of it
has occurred in closed-source systems, widening the gap with open-source
alternatives. Progress has been held back by two key challenges: first, a
narrow focus on single-step tasks that overlooks the complexity of multi-step
web interactions; and second, the high compute costs required to post-train
LLM-based web agents. To address this, we present the first statistically
grounded study on compute allocation for LLM web-agent post-training. Our
approach uses a two-stage pipeline, training a Llama 3.1 8B student to imitate
a Llama 3.3 70B teacher via supervised fine-tuning (SFT), followed by on-policy
reinforcement learning. We find this process highly sensitive to hyperparameter
choices, making exhaustive sweeps impractical. To spare others from expensive
trial-and-error, we sample 1,370 configurations and use bootstrapping to
estimate effective hyperparameters. Our results show that combining SFT with
on-policy RL consistently outperforms either approach alone on both WorkArena
and MiniWob++. Further, this strategy requires only 55% of the compute to match
the peak performance of pure SFT on MiniWob++, effectively pushing the
compute-performance Pareto frontier, and is the only strategy that can close
the gap with closed-source models.