ChatPaper.aiChatPaper

マルチエージェント進化:共進化による大規模言語モデルの自己改善

Multi-Agent Evolve: LLM Self-Improve through Co-evolution

October 27, 2025
著者: Yixing Chen, Yiding Wang, Siqi Zhu, Haofei Yu, Tao Feng, Muhan Zhan, Mostofa Patwary, Jiaxuan You
cs.AI

要旨

強化学習(RL)は大規模言語モデル(LLM)の推論能力を強化する上で大きな可能性を示している。しかし、LLMに対するRLの成功は、その拡張性と一般性を制限する、人間が整備したデータセットと検証可能な報酬に大きく依存している。ゲームや囲碁における成功に着想を得た近年のSelf-Play RL手法は、人間による注釈データなしでLLMの推論能力を高めることを目指している。しかし、これらの手法は主にフィードバックのための基盤環境(Pythonインタープリタやゲームエンジンなど)に依存しており、一般領域への拡張は依然として困難である。これらの課題に対処するため、我々は数学、推論、一般知識QAを含む多様なタスク解決においてLLMが自己進化することを可能にするフレームワーク、Multi-Agent Evolve(MAE)を提案する。MAEの核心的な設計は、単一のLLMからインスタンス化された3つの相互作用するエージェント(提案者、解決者、審判者)のトリオに基づき、強化学習を適用してそれらの振る舞いを最適化する。提案者は問題を生成し、解決者は解答を試み、審判者は両者を評価しながら共進化する。Qwen2.5-3B-Instructを用いた実験では、MAEが複数のベンチマークで平均4.54%の改善を達成することが示された。これらの結果は、MAEが人間による監督への依存を最小限に抑えつつ、LLMの一般的な推論能力を強化するスケーラブルでデータ効率の良い手法であることを浮き彫りにしている。
English
Reinforcement Learning (RL) has demonstrated significant potential in enhancing the reasoning capabilities of large language models (LLMs). However, the success of RL for LLMs heavily relies on human-curated datasets and verifiable rewards, which limit their scalability and generality. Recent Self-Play RL methods, inspired by the success of the paradigm in games and Go, aim to enhance LLM reasoning capabilities without human-annotated data. However, their methods primarily depend on a grounded environment for feedback (e.g., a Python interpreter or a game engine); extending them to general domains remains challenging. To address these challenges, we propose Multi-Agent Evolve (MAE), a framework that enables LLMs to self-evolve in solving diverse tasks, including mathematics, reasoning, and general knowledge Q&A. The core design of MAE is based on a triplet of interacting agents (Proposer, Solver, Judge) that are instantiated from a single LLM, and applies reinforcement learning to optimize their behaviors. The Proposer generates questions, the Solver attempts solutions, and the Judge evaluates both while co-evolving. Experiments on Qwen2.5-3B-Instruct demonstrate that MAE achieves an average improvement of 4.54% on multiple benchmarks. These results highlight MAE as a scalable, data-efficient method for enhancing the general reasoning abilities of LLMs with minimal reliance on human-curated supervision.
PDF112December 31, 2025