ChatPaper.aiChatPaper

Comment entraîner votre agent web LLM : un diagnostic statistique

How to Train Your LLM Web Agent: A Statistical Diagnosis

July 5, 2025
papers.authors: Dheeraj Vattikonda, Santhoshi Ravichandran, Emiliano Penaloza, Hadi Nekoei, Megh Thakkar, Thibault Le Sellier de Chezelles, Nicolas Gontier, Miguel Muñoz-Mármol, Sahar Omidi Shayegan, Stefania Raimondo, Xue Liu, Alexandre Drouin, Laurent Charlin, Alexandre Piché, Alexandre Lacoste, Massimo Caccia
cs.AI

papers.abstract

Les agents web basés sur des LLM (modèles de langage de grande taille) ont récemment réalisé des progrès significatifs, mais une grande partie de ces avancées a eu lieu dans des systèmes propriétaires, creusant ainsi l'écart avec les alternatives open source. Ces progrès ont été freinés par deux défis majeurs : premièrement, une focalisation étroite sur des tâches en une seule étape, négligeant la complexité des interactions web multi-étapes ; et deuxièmement, les coûts de calcul élevés nécessaires pour le post-entraînement des agents web basés sur des LLM. Pour y remédier, nous présentons la première étude statistiquement fondée sur l'allocation de ressources de calcul pour le post-entraînement des agents web LLM. Notre approche utilise un pipeline en deux étapes, entraînant un étudiant Llama 3.1 8B à imiter un enseignant Llama 3.3 70B via un fine-tuning supervisé (SFT), suivi d'un apprentissage par renforcement sur politique. Nous constatons que ce processus est très sensible aux choix d'hyperparamètres, rendant les balayages exhaustifs impraticables. Pour éviter à d'autres des essais et erreurs coûteux, nous échantillonnons 1 370 configurations et utilisons le bootstrapping pour estimer les hyperparamètres efficaces. Nos résultats montrent que la combinaison du SFT avec l'apprentissage par renforcement sur politique surpasse systématiquement chaque approche seule, à la fois sur WorkArena et MiniWob++. De plus, cette stratégie nécessite seulement 55 % des ressources de calcul pour atteindre la performance maximale du SFT pur sur MiniWob++, repoussant efficacement la frontière de Pareto entre calcul et performance, et est la seule stratégie capable de combler l'écart avec les modèles propriétaires.
English
LLM-based web agents have recently made significant progress, but much of it has occurred in closed-source systems, widening the gap with open-source alternatives. Progress has been held back by two key challenges: first, a narrow focus on single-step tasks that overlooks the complexity of multi-step web interactions; and second, the high compute costs required to post-train LLM-based web agents. To address this, we present the first statistically grounded study on compute allocation for LLM web-agent post-training. Our approach uses a two-stage pipeline, training a Llama 3.1 8B student to imitate a Llama 3.3 70B teacher via supervised fine-tuning (SFT), followed by on-policy reinforcement learning. We find this process highly sensitive to hyperparameter choices, making exhaustive sweeps impractical. To spare others from expensive trial-and-error, we sample 1,370 configurations and use bootstrapping to estimate effective hyperparameters. Our results show that combining SFT with on-policy RL consistently outperforms either approach alone on both WorkArena and MiniWob++. Further, this strategy requires only 55% of the compute to match the peak performance of pure SFT on MiniWob++, effectively pushing the compute-performance Pareto frontier, and is the only strategy that can close the gap with closed-source models.
PDF442July 9, 2025