Cómo Entrenar a Tu Agente Web Basado en LLM: Un Diagnóstico Estadístico
How to Train Your LLM Web Agent: A Statistical Diagnosis
July 5, 2025
Autores: Dheeraj Vattikonda, Santhoshi Ravichandran, Emiliano Penaloza, Hadi Nekoei, Megh Thakkar, Thibault Le Sellier de Chezelles, Nicolas Gontier, Miguel Muñoz-Mármol, Sahar Omidi Shayegan, Stefania Raimondo, Xue Liu, Alexandre Drouin, Laurent Charlin, Alexandre Piché, Alexandre Lacoste, Massimo Caccia
cs.AI
Resumen
Los agentes web basados en LLM han logrado avances significativos recientemente, pero gran parte de este progreso se ha dado en sistemas de código cerrado, ampliando la brecha con las alternativas de código abierto. El avance se ha visto limitado por dos desafíos clave: primero, un enfoque estrecho en tareas de un solo paso que pasa por alto la complejidad de las interacciones web de múltiples pasos; y segundo, los altos costos computacionales requeridos para el entrenamiento posterior de agentes web basados en LLM. Para abordar esto, presentamos el primer estudio estadísticamente fundamentado sobre la asignación de recursos computacionales para el entrenamiento posterior de agentes web basados en LLM. Nuestro enfoque utiliza una canalización de dos etapas, entrenando un estudiante Llama 3.1 8B para imitar a un maestro Llama 3.3 70B mediante ajuste fino supervisado (SFT), seguido de aprendizaje por refuerzo on-policy. Descubrimos que este proceso es altamente sensible a las elecciones de hiperparámetros, lo que hace que los barridos exhaustivos sean poco prácticos. Para evitar a otros el costoso ensayo y error, muestreamos 1.370 configuraciones y utilizamos bootstrapping para estimar hiperparámetros efectivos. Nuestros resultados muestran que combinar SFT con RL on-policy supera consistentemente a cualquiera de los enfoques por separado tanto en WorkArena como en MiniWob++. Además, esta estrategia requiere solo el 55% de los recursos computacionales para igualar el rendimiento máximo del SFT puro en MiniWob++, empujando efectivamente la frontera de Pareto de rendimiento-computación, y es la única estrategia que puede cerrar la brecha con los modelos de código cerrado.
English
LLM-based web agents have recently made significant progress, but much of it
has occurred in closed-source systems, widening the gap with open-source
alternatives. Progress has been held back by two key challenges: first, a
narrow focus on single-step tasks that overlooks the complexity of multi-step
web interactions; and second, the high compute costs required to post-train
LLM-based web agents. To address this, we present the first statistically
grounded study on compute allocation for LLM web-agent post-training. Our
approach uses a two-stage pipeline, training a Llama 3.1 8B student to imitate
a Llama 3.3 70B teacher via supervised fine-tuning (SFT), followed by on-policy
reinforcement learning. We find this process highly sensitive to hyperparameter
choices, making exhaustive sweeps impractical. To spare others from expensive
trial-and-error, we sample 1,370 configurations and use bootstrapping to
estimate effective hyperparameters. Our results show that combining SFT with
on-policy RL consistently outperforms either approach alone on both WorkArena
and MiniWob++. Further, this strategy requires only 55% of the compute to match
the peak performance of pure SFT on MiniWob++, effectively pushing the
compute-performance Pareto frontier, and is the only strategy that can close
the gap with closed-source models.