Cómo Entrenar a Tu Agente Web Basado en LLM: Un Diagnóstico Estadístico

Resumen

Los agentes web basados en LLM han logrado avances significativos recientemente, pero gran parte de este progreso se ha dado en sistemas de código cerrado, ampliando la brecha con las alternativas de código abierto. El avance se ha visto limitado por dos desafíos clave: primero, un enfoque estrecho en tareas de un solo paso que pasa por alto la complejidad de las interacciones web de múltiples pasos; y segundo, los altos costos computacionales requeridos para el entrenamiento posterior de agentes web basados en LLM. Para abordar esto, presentamos el primer estudio estadísticamente fundamentado sobre la asignación de recursos computacionales para el entrenamiento posterior de agentes web basados en LLM. Nuestro enfoque utiliza una canalización de dos etapas, entrenando un estudiante Llama 3.1 8B para imitar a un maestro Llama 3.3 70B mediante ajuste fino supervisado (SFT), seguido de aprendizaje por refuerzo on-policy. Descubrimos que este proceso es altamente sensible a las elecciones de hiperparámetros, lo que hace que los barridos exhaustivos sean poco prácticos. Para evitar a otros el costoso ensayo y error, muestreamos 1.370 configuraciones y utilizamos bootstrapping para estimar hiperparámetros efectivos. Nuestros resultados muestran que combinar SFT con RL on-policy supera consistentemente a cualquiera de los enfoques por separado tanto en WorkArena como en MiniWob++. Además, esta estrategia requiere solo el 55% de los recursos computacionales para igualar el rendimiento máximo del SFT puro en MiniWob++, empujando efectivamente la frontera de Pareto de rendimiento-computación, y es la única estrategia que puede cerrar la brecha con los modelos de código cerrado.

English

LLM-based web agents have recently made significant progress, but much of it has occurred in closed-source systems, widening the gap with open-source alternatives. Progress has been held back by two key challenges: first, a narrow focus on single-step tasks that overlooks the complexity of multi-step web interactions; and second, the high compute costs required to post-train LLM-based web agents. To address this, we present the first statistically grounded study on compute allocation for LLM web-agent post-training. Our approach uses a two-stage pipeline, training a Llama 3.1 8B student to imitate a Llama 3.3 70B teacher via supervised fine-tuning (SFT), followed by on-policy reinforcement learning. We find this process highly sensitive to hyperparameter choices, making exhaustive sweeps impractical. To spare others from expensive trial-and-error, we sample 1,370 configurations and use bootstrapping to estimate effective hyperparameters. Our results show that combining SFT with on-policy RL consistently outperforms either approach alone on both WorkArena and MiniWob++. Further, this strategy requires only 55% of the compute to match the peak performance of pure SFT on MiniWob++, effectively pushing the compute-performance Pareto frontier, and is the only strategy that can close the gap with closed-source models.

Cómo Entrenar a Tu Agente Web Basado en LLM: Un Diagnóstico Estadístico

How to Train Your LLM Web Agent: A Statistical Diagnosis

Resumen

Support