マルチエージェント進化:共進化による大規模言語モデルの自己改善
Multi-Agent Evolve: LLM Self-Improve through Co-evolution
October 27, 2025
著者: Yixing Chen, Yiding Wang, Siqi Zhu, Haofei Yu, Tao Feng, Muhan Zhan, Mostofa Patwary, Jiaxuan You
cs.AI
要旨
強化学習(RL)は大規模言語モデル(LLM)の推論能力を強化する上で大きな可能性を示している。しかし、LLMに対するRLの成功は、その拡張性と一般性を制限する、人間が整備したデータセットと検証可能な報酬に大きく依存している。ゲームや囲碁における成功に着想を得た近年のSelf-Play RL手法は、人間による注釈データなしでLLMの推論能力を高めることを目指している。しかし、これらの手法は主にフィードバックのための基盤環境(Pythonインタープリタやゲームエンジンなど)に依存しており、一般領域への拡張は依然として困難である。これらの課題に対処するため、我々は数学、推論、一般知識QAを含む多様なタスク解決においてLLMが自己進化することを可能にするフレームワーク、Multi-Agent Evolve(MAE)を提案する。MAEの核心的な設計は、単一のLLMからインスタンス化された3つの相互作用するエージェント(提案者、解決者、審判者)のトリオに基づき、強化学習を適用してそれらの振る舞いを最適化する。提案者は問題を生成し、解決者は解答を試み、審判者は両者を評価しながら共進化する。Qwen2.5-3B-Instructを用いた実験では、MAEが複数のベンチマークで平均4.54%の改善を達成することが示された。これらの結果は、MAEが人間による監督への依存を最小限に抑えつつ、LLMの一般的な推論能力を強化するスケーラブルでデータ効率の良い手法であることを浮き彫りにしている。
English
Reinforcement Learning (RL) has demonstrated significant potential in
enhancing the reasoning capabilities of large language models (LLMs). However,
the success of RL for LLMs heavily relies on human-curated datasets and
verifiable rewards, which limit their scalability and generality. Recent
Self-Play RL methods, inspired by the success of the paradigm in games and Go,
aim to enhance LLM reasoning capabilities without human-annotated data.
However, their methods primarily depend on a grounded environment for feedback
(e.g., a Python interpreter or a game engine); extending them to general
domains remains challenging. To address these challenges, we propose
Multi-Agent Evolve (MAE), a framework that enables LLMs to self-evolve in
solving diverse tasks, including mathematics, reasoning, and general knowledge
Q&A. The core design of MAE is based on a triplet of interacting agents
(Proposer, Solver, Judge) that are instantiated from a single LLM, and applies
reinforcement learning to optimize their behaviors. The Proposer generates
questions, the Solver attempts solutions, and the Judge evaluates both while
co-evolving. Experiments on Qwen2.5-3B-Instruct demonstrate that MAE achieves
an average improvement of 4.54% on multiple benchmarks. These results highlight
MAE as a scalable, data-efficient method for enhancing the general reasoning
abilities of LLMs with minimal reliance on human-curated supervision.