Comment entraîner votre agent web LLM : un diagnostic statistique

papers.abstract

Les agents web basés sur des LLM (modèles de langage de grande taille) ont récemment réalisé des progrès significatifs, mais une grande partie de ces avancées a eu lieu dans des systèmes propriétaires, creusant ainsi l'écart avec les alternatives open source. Ces progrès ont été freinés par deux défis majeurs : premièrement, une focalisation étroite sur des tâches en une seule étape, négligeant la complexité des interactions web multi-étapes ; et deuxièmement, les coûts de calcul élevés nécessaires pour le post-entraînement des agents web basés sur des LLM. Pour y remédier, nous présentons la première étude statistiquement fondée sur l'allocation de ressources de calcul pour le post-entraînement des agents web LLM. Notre approche utilise un pipeline en deux étapes, entraînant un étudiant Llama 3.1 8B à imiter un enseignant Llama 3.3 70B via un fine-tuning supervisé (SFT), suivi d'un apprentissage par renforcement sur politique. Nous constatons que ce processus est très sensible aux choix d'hyperparamètres, rendant les balayages exhaustifs impraticables. Pour éviter à d'autres des essais et erreurs coûteux, nous échantillonnons 1 370 configurations et utilisons le bootstrapping pour estimer les hyperparamètres efficaces. Nos résultats montrent que la combinaison du SFT avec l'apprentissage par renforcement sur politique surpasse systématiquement chaque approche seule, à la fois sur WorkArena et MiniWob++. De plus, cette stratégie nécessite seulement 55 % des ressources de calcul pour atteindre la performance maximale du SFT pur sur MiniWob++, repoussant efficacement la frontière de Pareto entre calcul et performance, et est la seule stratégie capable de combler l'écart avec les modèles propriétaires.

English

LLM-based web agents have recently made significant progress, but much of it has occurred in closed-source systems, widening the gap with open-source alternatives. Progress has been held back by two key challenges: first, a narrow focus on single-step tasks that overlooks the complexity of multi-step web interactions; and second, the high compute costs required to post-train LLM-based web agents. To address this, we present the first statistically grounded study on compute allocation for LLM web-agent post-training. Our approach uses a two-stage pipeline, training a Llama 3.1 8B student to imitate a Llama 3.3 70B teacher via supervised fine-tuning (SFT), followed by on-policy reinforcement learning. We find this process highly sensitive to hyperparameter choices, making exhaustive sweeps impractical. To spare others from expensive trial-and-error, we sample 1,370 configurations and use bootstrapping to estimate effective hyperparameters. Our results show that combining SFT with on-policy RL consistently outperforms either approach alone on both WorkArena and MiniWob++. Further, this strategy requires only 55% of the compute to match the peak performance of pure SFT on MiniWob++, effectively pushing the compute-performance Pareto frontier, and is the only strategy that can close the gap with closed-source models.

Comment entraîner votre agent web LLM : un diagnostic statistique

How to Train Your LLM Web Agent: A Statistical Diagnosis

papers.abstract

Support