WebRL: 自己進化オンラインカリキュラムを通じたLLM Web エージェントのトレーニング 強化学習
WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning
November 4, 2024
著者: Zehan Qi, Xiao Liu, Iat Long Iong, Hanyu Lai, Xueqiao Sun, Xinyue Yang, Jiadai Sun, Yu Yang, Shuntian Yao, Tianjie Zhang, Wei Xu, Jie Tang, Yuxiao Dong
cs.AI
要旨
大規模言語モデル(LLM)は、特にウェブベースのタスクにおいて自律エージェントとして顕著な潜在能力を示しています。しかし、既存のLLMウェブエージェントは、高価なプロプライエタリLLM APIに大きく依存しており、一方でオープンなLLMには必要な意思決定能力が欠如しています。本論文では、オープンなLLMを用いて高性能なウェブエージェントを訓練するために設計された、自己進化オンラインカリキュラム強化学習フレームワークであるWebRLを紹介します。WebRLは、LLMウェブエージェントの構築における3つの主要な課題、つまりトレーニングタスクの不足、希薄なフィードバック信号、オンライン学習におけるポリシー分布のドリフトという課題に取り組んでいます。具体的には、WebRLは、1) 成功しなかった試行から新しいタスクを生成する自己進化カリキュラム、2) 頑健なアウトカム監督報酬モデル(ORM)、および3) 一貫した改善を確実にする適応型強化学習戦略を組み込んでいます。我々は、WebRLを用いてオープンなLlama-3.1およびGLM-4モデルを熟練したウェブエージェントに変換しました。WebArena-Lite上で、WebRLはLlama-3.1-8Bの成功率を4.8%から42.4%に、GLM-4-9Bの成功率を6.1%から43%に向上させました。これらのオープンモデルは、GPT-4-Turbo(17.6%)およびGPT-4o(13.9%)を大きく上回り、オープンなLLMで訓練された以前の最先端ウェブエージェント(AutoWebGLM、18.2%)を凌駕しています。我々の調査結果は、WebRLがオープンとプロプライエタリなLLMベースのウェブエージェントとのギャップを埋める効果的な手段であり、よりアクセス可能で強力な自律ウェブインタラクションシステムへの道を開いていることを示しています。
English
Large language models (LLMs) have shown remarkable potential as autonomous
agents, particularly in web-based tasks. However, existing LLM web agents
heavily rely on expensive proprietary LLM APIs, while open LLMs lack the
necessary decision-making capabilities. This paper introduces WebRL, a
self-evolving online curriculum reinforcement learning framework designed to
train high-performance web agents using open LLMs. WebRL addresses three key
challenges in building LLM web agents, including the scarcity of training
tasks, sparse feedback signals, and policy distribution drift in online
learning. Specifically, WebRL incorporates 1) a self-evolving curriculum that
generates new tasks from unsuccessful attempts, 2) a robust outcome-supervised
reward model (ORM), and 3) adaptive reinforcement learning strategies to ensure
consistent improvements. We apply WebRL to transform open Llama-3.1 and GLM-4
models into proficient web agents. On WebArena-Lite, WebRL improves the success
rate of Llama-3.1-8B from 4.8% to 42.4%, and from 6.1% to 43% for GLM-4-9B.
These open models significantly surpass the performance of GPT-4-Turbo (17.6%)
and GPT-4o (13.9%) and outperform previous state-of-the-art web agents trained
on open LLMs (AutoWebGLM, 18.2%). Our findings demonstrate WebRL's
effectiveness in bridging the gap between open and proprietary LLM-based web
agents, paving the way for more accessible and powerful autonomous web
interaction systems.Summary
AI-Generated Summary