WebRL: Entrenamiento de Agentes Web LLM a través de un Currículo en Línea Autoevolutivo Aprendizaje por Refuerzo
WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning
November 4, 2024
Autores: Zehan Qi, Xiao Liu, Iat Long Iong, Hanyu Lai, Xueqiao Sun, Xinyue Yang, Jiadai Sun, Yu Yang, Shuntian Yao, Tianjie Zhang, Wei Xu, Jie Tang, Yuxiao Dong
cs.AI
Resumen
Los modelos de lenguaje grandes (LLMs) han demostrado un potencial notable como agentes autónomos, especialmente en tareas basadas en la web. Sin embargo, los agentes web LLM existentes dependen en gran medida de costosas APIs LLM propietarias, mientras que los LLM abiertos carecen de las capacidades de toma de decisiones necesarias. Este documento presenta WebRL, un marco de aprendizaje por refuerzo de currículo en línea autoevolutivo diseñado para entrenar agentes web de alto rendimiento utilizando LLMs abiertos. WebRL aborda tres desafíos clave en la construcción de agentes web LLM, incluida la escasez de tareas de entrenamiento, señales de retroalimentación dispersas y deriva en la distribución de políticas en el aprendizaje en línea. Específicamente, WebRL incorpora 1) un currículo autoevolutivo que genera nuevas tareas a partir de intentos fallidos, 2) un modelo de recompensa supervisado por resultados robusto (ORM) y 3) estrategias adaptativas de aprendizaje por refuerzo para garantizar mejoras consistentes. Aplicamos WebRL para transformar los modelos abiertos Llama-3.1 y GLM-4 en agentes web competentes. En WebArena-Lite, WebRL mejora la tasa de éxito de Llama-3.1-8B del 4.8% al 42.4%, y del 6.1% al 43% para GLM-4-9B. Estos modelos abiertos superan significativamente el rendimiento de GPT-4-Turbo (17.6%) y GPT-4o (13.9%) y superan a los agentes web de última generación previamente entrenados en LLMs abiertos (AutoWebGLM, 18.2%). Nuestros hallazgos demuestran la efectividad de WebRL en cerrar la brecha entre los agentes web basados en LLMs abiertos y propietarios, allanando el camino para sistemas de interacción web autónomos más accesibles y potentes.
English
Large language models (LLMs) have shown remarkable potential as autonomous
agents, particularly in web-based tasks. However, existing LLM web agents
heavily rely on expensive proprietary LLM APIs, while open LLMs lack the
necessary decision-making capabilities. This paper introduces WebRL, a
self-evolving online curriculum reinforcement learning framework designed to
train high-performance web agents using open LLMs. WebRL addresses three key
challenges in building LLM web agents, including the scarcity of training
tasks, sparse feedback signals, and policy distribution drift in online
learning. Specifically, WebRL incorporates 1) a self-evolving curriculum that
generates new tasks from unsuccessful attempts, 2) a robust outcome-supervised
reward model (ORM), and 3) adaptive reinforcement learning strategies to ensure
consistent improvements. We apply WebRL to transform open Llama-3.1 and GLM-4
models into proficient web agents. On WebArena-Lite, WebRL improves the success
rate of Llama-3.1-8B from 4.8% to 42.4%, and from 6.1% to 43% for GLM-4-9B.
These open models significantly surpass the performance of GPT-4-Turbo (17.6%)
and GPT-4o (13.9%) and outperform previous state-of-the-art web agents trained
on open LLMs (AutoWebGLM, 18.2%). Our findings demonstrate WebRL's
effectiveness in bridging the gap between open and proprietary LLM-based web
agents, paving the way for more accessible and powerful autonomous web
interaction systems.Summary
AI-Generated Summary