CoMAS: 相互作用報酬による共進化型マルチエージェントシステム
CoMAS: Co-Evolving Multi-Agent Systems via Interaction Rewards
October 9, 2025
著者: Xiangyuan Xue, Yifan Zhou, Guibin Zhang, Zaibin Zhang, Yijiang Li, Chen Zhang, Zhenfei Yin, Philip Torr, Wanli Ouyang, Lei Bai
cs.AI
要旨
自己進化は、大規模言語モデル(LLM)ベースのエージェントが事前学習後に継続的に能力を向上させるための中心的な研究テーマである。最近の研究では、強化学習(RL)を用いない手法からRLベースの手法への移行が進んでいる。現在のRLベースの手法は、密な外部報酬信号に依存するか、LLM自体から内在的な報酬信号を抽出するかのいずれかである。しかし、これらのアプローチは、人間の知性において観察される自己進化メカニズムとは異なる。人間は相互の議論と協力を通じて学習し、改善する。本研究では、外部の監督なしにエージェント間の相互作用から学習することで自律的に改善を可能にする新しいフレームワークであるCo-Evolving Multi-Agent Systems(CoMAS)を提案する。CoMASは、豊富な議論のダイナミクスから内在的な報酬を生成し、LLMを裁判官として利用してこれらの報酬を定式化し、RLを通じて各エージェントのポリシーを最適化することで、分散的かつスケーラブルな共進化を実現する。実験結果は、CoMASが未訓練のエージェントを一貫して上回り、ほとんどの評価設定において最先端の性能を達成することを示している。アブレーション研究は、相互作用に基づく報酬信号の必要性を確認し、エージェントの数と多様性が増加するにつれて有望なスケーラビリティを明らかにしている。これらの知見は、CoMASをLLMベースのエージェントにおける自己進化の新たで効果的なパラダイムとして確立するものである。
English
Self-evolution is a central research topic in enabling large language model
(LLM)-based agents to continually improve their capabilities after pretraining.
Recent research has witnessed a transition from reinforcement learning
(RL)-free to RL-based methods. Current RL-based methods either rely on dense
external reward signals or extract intrinsic reward signals from LLMs
themselves. However, these approaches diverge from the self-evolution
mechanisms observed in human intelligence, where individuals learn and improve
through mutual discussion and collaboration. In this work, we introduce
Co-Evolving Multi-Agent Systems (CoMAS), a novel framework that enables agents
to improve autonomously by learning from inter-agent interactions without
external supervision. CoMAS generates intrinsic rewards from rich discussion
dynamics, employs an LLM-as-a-judge mechanism to formulate these rewards, and
optimizes each agent's policy through RL, thereby enabling decentralized and
scalable co-evolution. Experimental results demonstrate that CoMAS consistently
outperforms untrained agents and achieves state-of-the-art performance across
most evaluation settings. Ablation studies confirm the necessity of
interaction-based reward signals and reveal promising scalability as the number
and diversity of agents increase. These findings establish CoMAS as a novel and
effective paradigm for self-evolution in LLM-based agents.