Comment entraîner votre agent web LLM : un diagnostic statistique
How to Train Your LLM Web Agent: A Statistical Diagnosis
July 5, 2025
papers.authors: Dheeraj Vattikonda, Santhoshi Ravichandran, Emiliano Penaloza, Hadi Nekoei, Megh Thakkar, Thibault Le Sellier de Chezelles, Nicolas Gontier, Miguel Muñoz-Mármol, Sahar Omidi Shayegan, Stefania Raimondo, Xue Liu, Alexandre Drouin, Laurent Charlin, Alexandre Piché, Alexandre Lacoste, Massimo Caccia
cs.AI
papers.abstract
Les agents web basés sur des LLM (modèles de langage de grande taille) ont récemment réalisé des progrès significatifs, mais une grande partie de ces avancées a eu lieu dans des systèmes propriétaires, creusant ainsi l'écart avec les alternatives open source. Ces progrès ont été freinés par deux défis majeurs : premièrement, une focalisation étroite sur des tâches en une seule étape, négligeant la complexité des interactions web multi-étapes ; et deuxièmement, les coûts de calcul élevés nécessaires pour le post-entraînement des agents web basés sur des LLM. Pour y remédier, nous présentons la première étude statistiquement fondée sur l'allocation de ressources de calcul pour le post-entraînement des agents web LLM. Notre approche utilise un pipeline en deux étapes, entraînant un étudiant Llama 3.1 8B à imiter un enseignant Llama 3.3 70B via un fine-tuning supervisé (SFT), suivi d'un apprentissage par renforcement sur politique. Nous constatons que ce processus est très sensible aux choix d'hyperparamètres, rendant les balayages exhaustifs impraticables. Pour éviter à d'autres des essais et erreurs coûteux, nous échantillonnons 1 370 configurations et utilisons le bootstrapping pour estimer les hyperparamètres efficaces. Nos résultats montrent que la combinaison du SFT avec l'apprentissage par renforcement sur politique surpasse systématiquement chaque approche seule, à la fois sur WorkArena et MiniWob++. De plus, cette stratégie nécessite seulement 55 % des ressources de calcul pour atteindre la performance maximale du SFT pur sur MiniWob++, repoussant efficacement la frontière de Pareto entre calcul et performance, et est la seule stratégie capable de combler l'écart avec les modèles propriétaires.
English
LLM-based web agents have recently made significant progress, but much of it
has occurred in closed-source systems, widening the gap with open-source
alternatives. Progress has been held back by two key challenges: first, a
narrow focus on single-step tasks that overlooks the complexity of multi-step
web interactions; and second, the high compute costs required to post-train
LLM-based web agents. To address this, we present the first statistically
grounded study on compute allocation for LLM web-agent post-training. Our
approach uses a two-stage pipeline, training a Llama 3.1 8B student to imitate
a Llama 3.3 70B teacher via supervised fine-tuning (SFT), followed by on-policy
reinforcement learning. We find this process highly sensitive to hyperparameter
choices, making exhaustive sweeps impractical. To spare others from expensive
trial-and-error, we sample 1,370 configurations and use bootstrapping to
estimate effective hyperparameters. Our results show that combining SFT with
on-policy RL consistently outperforms either approach alone on both WorkArena
and MiniWob++. Further, this strategy requires only 55% of the compute to match
the peak performance of pure SFT on MiniWob++, effectively pushing the
compute-performance Pareto frontier, and is the only strategy that can close
the gap with closed-source models.