arXiv: 2510.23595v1

マルチエージェント進化:共進化によるLLMの自己改善

Multi-Agent Evolve: LLM Self-Improve through Co-evolution

October 27, 2025
著者: Yixing Chen, Yiding Wang, Siqi Zhu, Haofei Yu, Tao Feng, Muhan Zhan, Mostofa Patwary, Jiaxuan You
cs.AIcs.AI

要旨

強化学習(Reinforcement Learning, RL)は、大規模言語モデル(Large Language Models, LLMs)の推論能力を向上させる上で大きな可能性を示している。しかし、LLMsに対するRLの成功は、人間が作成したデータセットと検証可能な報酬に大きく依存しており、その拡張性と汎用性が制限されている。最近のSelf-Play RL手法は、ゲームや囲碁における成功に着想を得て、人間による注釈データなしにLLMsの推論能力を向上させることを目指している。しかし、これらの手法は主にフィードバックのための基盤環境(例えば、Pythonインタプリタやゲームエンジン)に依存しており、一般的な領域への拡張は依然として困難である。これらの課題に対処するため、我々はMulti-Agent Evolve(MAE)を提案する。MAEは、数学、推論、一般知識のQ&Aを含む多様なタスクを解決するためにLLMsが自己進化することを可能にするフレームワークである。MAEのコアデザインは、単一のLLMからインスタンス化された3つの相互作用するエージェント(Proposer, Solver, Judge)に基づいており、強化学習を適用してそれらの行動を最適化する。Proposerは質問を生成し、Solverは解決策を試み、Judgeはそれらを評価しながら共進化する。Qwen2.5-3B-Instructを用いた実験では、MAEが複数のベンチマークで平均4.54%の改善を達成することが示された。これらの結果は、MAEが人間による監視を最小限に抑えつつ、LLMsの一般的な推論能力を向上させるための拡張性が高くデータ効率の良い手法であることを強調している。
English
Reinforcement Learning (RL) has demonstrated significant potential in enhancing the reasoning capabilities of large language models (LLMs). However, the success of RL for LLMs heavily relies on human-curated datasets and verifiable rewards, which limit their scalability and generality. Recent Self-Play RL methods, inspired by the success of the paradigm in games and Go, aim to enhance LLM reasoning capabilities without human-annotated data. However, their methods primarily depend on a grounded environment for feedback (e.g., a Python interpreter or a game engine); extending them to general domains remains challenging. To address these challenges, we propose Multi-Agent Evolve (MAE), a framework that enables LLMs to self-evolve in solving diverse tasks, including mathematics, reasoning, and general knowledge Q&A. The core design of MAE is based on a triplet of interacting agents (Proposer, Solver, Judge) that are instantiated from a single LLM, and applies reinforcement learning to optimize their behaviors. The Proposer generates questions, the Solver attempts solutions, and the Judge evaluates both while co-evolving. Experiments on Qwen2.5-3B-Instruct demonstrate that MAE achieves an average improvement of 4.54% on multiple benchmarks. These results highlight MAE as a scalable, data-efficient method for enhancing the general reasoning abilities of LLMs with minimal reliance on human-curated supervision.
PDFOctober 28, 2025