Hoe Train Je Je LLM-webagent: Een Statistisch Diagnose

Samenvatting

LLM-gebaseerde webagents hebben recentelijk aanzienlijke vooruitgang geboekt, maar veel daarvan heeft plaatsgevonden in gesloten bronsystemen, waardoor de kloof met open-source alternatieven is vergroot. De vooruitgang is belemmerd door twee belangrijke uitdagingen: ten eerste een nauwe focus op enkelstaps taken die de complexiteit van meerstaps webinteracties over het hoofd ziet; en ten tweede de hoge rekenkosten die nodig zijn voor het na-trainen van LLM-gebaseerde webagents. Om dit aan te pakken, presenteren we de eerste statistisch onderbouwde studie over rekenallocatie voor het na-trainen van LLM-webagents. Onze aanpak gebruikt een tweestappenpijplijn, waarbij een Llama 3.1 8B student wordt getraind om een Llama 3.3 70B leraar te imiteren via supervised fine-tuning (SFT), gevolgd door on-policy reinforcement learning. We ontdekken dat dit proces zeer gevoelig is voor de keuze van hyperparameters, waardoor uitgebreide zoektochten onpraktisch zijn. Om anderen dure trial-and-error te besparen, nemen we 1.370 configuraties steekproefsgewijs en gebruiken we bootstrapping om effectieve hyperparameters te schatten. Onze resultaten laten zien dat het combineren van SFT met on-policy RL consistent beter presteert dan elk van de benaderingen afzonderlijk op zowel WorkArena als MiniWob++. Bovendien vereist deze strategie slechts 55% van de rekenkracht om de piekprestatie van pure SFT op MiniWob++ te evenaren, waardoor effectief de reken-prestatie Pareto-grens wordt verlegd, en is het de enige strategie die de kloof met gesloten bronmodellen kan dichten.

English

LLM-based web agents have recently made significant progress, but much of it has occurred in closed-source systems, widening the gap with open-source alternatives. Progress has been held back by two key challenges: first, a narrow focus on single-step tasks that overlooks the complexity of multi-step web interactions; and second, the high compute costs required to post-train LLM-based web agents. To address this, we present the first statistically grounded study on compute allocation for LLM web-agent post-training. Our approach uses a two-stage pipeline, training a Llama 3.1 8B student to imitate a Llama 3.3 70B teacher via supervised fine-tuning (SFT), followed by on-policy reinforcement learning. We find this process highly sensitive to hyperparameter choices, making exhaustive sweeps impractical. To spare others from expensive trial-and-error, we sample 1,370 configurations and use bootstrapping to estimate effective hyperparameters. Our results show that combining SFT with on-policy RL consistently outperforms either approach alone on both WorkArena and MiniWob++. Further, this strategy requires only 55% of the compute to match the peak performance of pure SFT on MiniWob++, effectively pushing the compute-performance Pareto frontier, and is the only strategy that can close the gap with closed-source models.

Hoe Train Je Je LLM-webagent: Een Statistisch Diagnose

How to Train Your LLM Web Agent: A Statistical Diagnosis

Samenvatting

Support