Como Treinar Seu Agente Web de LLM: Um Diagnóstico Estatístico

Resumo

Agentes web baseados em LLMs (Large Language Models) têm feito progressos significativos recentemente, mas grande parte desses avanços ocorreu em sistemas de código fechado, ampliando a lacuna em relação às alternativas de código aberto. O progresso tem sido limitado por dois desafios principais: primeiro, um foco restrito em tarefas de etapa única que ignora a complexidade das interações web de múltiplas etapas; e segundo, os altos custos computacionais necessários para o pós-treinamento de agentes web baseados em LLMs. Para abordar isso, apresentamos o primeiro estudo estatisticamente fundamentado sobre alocação de recursos computacionais para o pós-treinamento de agentes web baseados em LLMs. Nossa abordagem utiliza um pipeline de duas etapas, treinando um aluno Llama 3.1 8B para imitar um professor Llama 3.3 70B por meio de ajuste fino supervisionado (SFT), seguido de aprendizado por reforço on-policy. Descobrimos que esse processo é altamente sensível às escolhas de hiperparâmetros, tornando varreduras exaustivas impraticáveis. Para poupar outros de tentativas e erros dispendiosas, amostramos 1.370 configurações e usamos bootstrapping para estimar hiperparâmetros eficazes. Nossos resultados mostram que combinar SFT com RL on-policy supera consistentemente qualquer uma das abordagens isoladamente tanto no WorkArena quanto no MiniWob++. Além disso, essa estratégia requer apenas 55% dos recursos computacionais para igualar o desempenho máximo do SFT puro no MiniWob++, efetivamente empurrando a fronteira de Pareto de desempenho-computação, e é a única estratégia capaz de fechar a lacuna com os modelos de código fechado.

English

LLM-based web agents have recently made significant progress, but much of it has occurred in closed-source systems, widening the gap with open-source alternatives. Progress has been held back by two key challenges: first, a narrow focus on single-step tasks that overlooks the complexity of multi-step web interactions; and second, the high compute costs required to post-train LLM-based web agents. To address this, we present the first statistically grounded study on compute allocation for LLM web-agent post-training. Our approach uses a two-stage pipeline, training a Llama 3.1 8B student to imitate a Llama 3.3 70B teacher via supervised fine-tuning (SFT), followed by on-policy reinforcement learning. We find this process highly sensitive to hyperparameter choices, making exhaustive sweeps impractical. To spare others from expensive trial-and-error, we sample 1,370 configurations and use bootstrapping to estimate effective hyperparameters. Our results show that combining SFT with on-policy RL consistently outperforms either approach alone on both WorkArena and MiniWob++. Further, this strategy requires only 55% of the compute to match the peak performance of pure SFT on MiniWob++, effectively pushing the compute-performance Pareto frontier, and is the only strategy that can close the gap with closed-source models.

Como Treinar Seu Agente Web de LLM: Um Diagnóstico Estatístico

How to Train Your LLM Web Agent: A Statistical Diagnosis

Resumo

Support