Como Treinar Seu Agente Web de LLM: Um Diagnóstico Estatístico
How to Train Your LLM Web Agent: A Statistical Diagnosis
July 5, 2025
Autores: Dheeraj Vattikonda, Santhoshi Ravichandran, Emiliano Penaloza, Hadi Nekoei, Megh Thakkar, Thibault Le Sellier de Chezelles, Nicolas Gontier, Miguel Muñoz-Mármol, Sahar Omidi Shayegan, Stefania Raimondo, Xue Liu, Alexandre Drouin, Laurent Charlin, Alexandre Piché, Alexandre Lacoste, Massimo Caccia
cs.AI
Resumo
Agentes web baseados em LLMs (Large Language Models) têm feito progressos significativos recentemente, mas grande parte desses avanços ocorreu em sistemas de código fechado, ampliando a lacuna em relação às alternativas de código aberto. O progresso tem sido limitado por dois desafios principais: primeiro, um foco restrito em tarefas de etapa única que ignora a complexidade das interações web de múltiplas etapas; e segundo, os altos custos computacionais necessários para o pós-treinamento de agentes web baseados em LLMs. Para abordar isso, apresentamos o primeiro estudo estatisticamente fundamentado sobre alocação de recursos computacionais para o pós-treinamento de agentes web baseados em LLMs. Nossa abordagem utiliza um pipeline de duas etapas, treinando um aluno Llama 3.1 8B para imitar um professor Llama 3.3 70B por meio de ajuste fino supervisionado (SFT), seguido de aprendizado por reforço on-policy. Descobrimos que esse processo é altamente sensível às escolhas de hiperparâmetros, tornando varreduras exaustivas impraticáveis. Para poupar outros de tentativas e erros dispendiosas, amostramos 1.370 configurações e usamos bootstrapping para estimar hiperparâmetros eficazes. Nossos resultados mostram que combinar SFT com RL on-policy supera consistentemente qualquer uma das abordagens isoladamente tanto no WorkArena quanto no MiniWob++. Além disso, essa estratégia requer apenas 55% dos recursos computacionais para igualar o desempenho máximo do SFT puro no MiniWob++, efetivamente empurrando a fronteira de Pareto de desempenho-computação, e é a única estratégia capaz de fechar a lacuna com os modelos de código fechado.
English
LLM-based web agents have recently made significant progress, but much of it
has occurred in closed-source systems, widening the gap with open-source
alternatives. Progress has been held back by two key challenges: first, a
narrow focus on single-step tasks that overlooks the complexity of multi-step
web interactions; and second, the high compute costs required to post-train
LLM-based web agents. To address this, we present the first statistically
grounded study on compute allocation for LLM web-agent post-training. Our
approach uses a two-stage pipeline, training a Llama 3.1 8B student to imitate
a Llama 3.3 70B teacher via supervised fine-tuning (SFT), followed by on-policy
reinforcement learning. We find this process highly sensitive to hyperparameter
choices, making exhaustive sweeps impractical. To spare others from expensive
trial-and-error, we sample 1,370 configurations and use bootstrapping to
estimate effective hyperparameters. Our results show that combining SFT with
on-policy RL consistently outperforms either approach alone on both WorkArena
and MiniWob++. Further, this strategy requires only 55% of the compute to match
the peak performance of pure SFT on MiniWob++, effectively pushing the
compute-performance Pareto frontier, and is the only strategy that can close
the gap with closed-source models.