WebRL: Treinamento de Agentes Web LLM via Currículo Online Autoevolutivo Aprendizado por Reforço
WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning
November 4, 2024
Autores: Zehan Qi, Xiao Liu, Iat Long Iong, Hanyu Lai, Xueqiao Sun, Xinyue Yang, Jiadai Sun, Yu Yang, Shuntian Yao, Tianjie Zhang, Wei Xu, Jie Tang, Yuxiao Dong
cs.AI
Resumo
Os grandes modelos de linguagem (LLMs) têm demonstrado um potencial notável como agentes autônomos, especialmente em tarefas baseadas na web. No entanto, os agentes web LLM existentes dependem fortemente de APIs LLM proprietárias caras, enquanto os LLMs abertos carecem das capacidades de tomada de decisão necessárias. Este artigo apresenta o WebRL, um framework de aprendizado por reforço de currículo online autoevolutivo projetado para treinar agentes web de alto desempenho usando LLMs abertos. O WebRL aborda três desafios-chave na construção de agentes web LLM, incluindo a escassez de tarefas de treinamento, sinais de feedback esparsos e deriva na distribuição de políticas no aprendizado online. Especificamente, o WebRL incorpora 1) um currículo autoevolutivo que gera novas tarefas a partir de tentativas malsucedidas, 2) um modelo de recompensa robusto supervisionado por resultados (ORM) e 3) estratégias adaptativas de aprendizado por reforço para garantir melhorias consistentes. Aplicamos o WebRL para transformar os modelos abertos Llama-3.1 e GLM-4 em agentes web proficientes. No WebArena-Lite, o WebRL melhora a taxa de sucesso do Llama-3.1-8B de 4,8% para 42,4% e de 6,1% para 43% para o GLM-4-9B. Esses modelos abertos superam significativamente o desempenho do GPT-4-Turbo (17,6%) e do GPT-4o (13,9%) e superam os agentes web de última geração treinados em LLMs abertos anteriores (AutoWebGLM, 18,2%). Nossas descobertas demonstram a eficácia do WebRL em preencher a lacuna entre agentes web baseados em LLMs abertos e proprietários, abrindo caminho para sistemas de interação web autônomos mais acessíveis e poderosos.
English
Large language models (LLMs) have shown remarkable potential as autonomous
agents, particularly in web-based tasks. However, existing LLM web agents
heavily rely on expensive proprietary LLM APIs, while open LLMs lack the
necessary decision-making capabilities. This paper introduces WebRL, a
self-evolving online curriculum reinforcement learning framework designed to
train high-performance web agents using open LLMs. WebRL addresses three key
challenges in building LLM web agents, including the scarcity of training
tasks, sparse feedback signals, and policy distribution drift in online
learning. Specifically, WebRL incorporates 1) a self-evolving curriculum that
generates new tasks from unsuccessful attempts, 2) a robust outcome-supervised
reward model (ORM), and 3) adaptive reinforcement learning strategies to ensure
consistent improvements. We apply WebRL to transform open Llama-3.1 and GLM-4
models into proficient web agents. On WebArena-Lite, WebRL improves the success
rate of Llama-3.1-8B from 4.8% to 42.4%, and from 6.1% to 43% for GLM-4-9B.
These open models significantly surpass the performance of GPT-4-Turbo (17.6%)
and GPT-4o (13.9%) and outperform previous state-of-the-art web agents trained
on open LLMs (AutoWebGLM, 18.2%). Our findings demonstrate WebRL's
effectiveness in bridging the gap between open and proprietary LLM-based web
agents, paving the way for more accessible and powerful autonomous web
interaction systems.Summary
AI-Generated Summary