Wie man Ihren LLM-Web-Agenten trainiert: Eine statistische Diagnose
How to Train Your LLM Web Agent: A Statistical Diagnosis
July 5, 2025
papers.authors: Dheeraj Vattikonda, Santhoshi Ravichandran, Emiliano Penaloza, Hadi Nekoei, Megh Thakkar, Thibault Le Sellier de Chezelles, Nicolas Gontier, Miguel Muñoz-Mármol, Sahar Omidi Shayegan, Stefania Raimondo, Xue Liu, Alexandre Drouin, Laurent Charlin, Alexandre Piché, Alexandre Lacoste, Massimo Caccia
cs.AI
papers.abstract
LLM-basierte Web-Agenten haben in letzter Zeit bedeutende Fortschritte gemacht, doch viel davon fand in Closed-Source-Systemen statt, was die Lücke zu Open-Source-Alternativen vergrößert hat. Der Fortschritt wurde durch zwei zentrale Herausforderungen gebremst: erstens eine enge Fokussierung auf Einzelschritt-Aufgaben, die die Komplexität mehrstufiger Web-Interaktionen übersieht; und zweitens die hohen Rechenkosten, die für das Post-Training von LLM-basierten Web-Agenten erforderlich sind. Um dies zu adressieren, präsentieren wir die erste statistisch fundierte Studie zur Rechenressourcen-Zuteilung für das Post-Training von LLM-Web-Agenten. Unser Ansatz verwendet eine zweistufige Pipeline, bei der ein Llama 3.1 8B-Schüler trainiert wird, um einen Llama 3.3 70B-Lehrer durch überwachtes Fein-Tuning (SFT) zu imitieren, gefolgt von On-Policy Reinforcement Learning. Wir stellen fest, dass dieser Prozess stark von der Wahl der Hyperparameter abhängt, was umfassende Durchläufe unpraktisch macht. Um anderen kostspieliges Trial-and-Error zu ersparen, nehmen wir 1.370 Konfigurationen und verwenden Bootstrapping, um effektive Hyperparameter zu schätzen. Unsere Ergebnisse zeigen, dass die Kombination von SFT mit On-Policy RL durchweg besser abschneidet als jeder Ansatz allein, sowohl auf WorkArena als auch auf MiniWob++. Darüber hinaus benötigt diese Strategie nur 55 % der Rechenleistung, um die Spitzenleistung von reinem SFT auf MiniWob++ zu erreichen, wodurch die Compute-Performance-Pareto-Grenze effektiv verschoben wird, und ist die einzige Strategie, die die Lücke zu Closed-Source-Modellen schließen kann.
English
LLM-based web agents have recently made significant progress, but much of it
has occurred in closed-source systems, widening the gap with open-source
alternatives. Progress has been held back by two key challenges: first, a
narrow focus on single-step tasks that overlooks the complexity of multi-step
web interactions; and second, the high compute costs required to post-train
LLM-based web agents. To address this, we present the first statistically
grounded study on compute allocation for LLM web-agent post-training. Our
approach uses a two-stage pipeline, training a Llama 3.1 8B student to imitate
a Llama 3.3 70B teacher via supervised fine-tuning (SFT), followed by on-policy
reinforcement learning. We find this process highly sensitive to hyperparameter
choices, making exhaustive sweeps impractical. To spare others from expensive
trial-and-error, we sample 1,370 configurations and use bootstrapping to
estimate effective hyperparameters. Our results show that combining SFT with
on-policy RL consistently outperforms either approach alone on both WorkArena
and MiniWob++. Further, this strategy requires only 55% of the compute to match
the peak performance of pure SFT on MiniWob++, effectively pushing the
compute-performance Pareto frontier, and is the only strategy that can close
the gap with closed-source models.