ChatPaper.aiChatPaper

CoMAS: 상호작용 보상을 통한 공진화 다중 에이전트 시스템

CoMAS: Co-Evolving Multi-Agent Systems via Interaction Rewards

October 9, 2025
저자: Xiangyuan Xue, Yifan Zhou, Guibin Zhang, Zaibin Zhang, Yijiang Li, Chen Zhang, Zhenfei Yin, Philip Torr, Wanli Ouyang, Lei Bai
cs.AI

초록

자기 진화는 대규모 언어 모델(LLM) 기반 에이전트가 사전 학습 이후에도 지속적으로 능력을 향상시킬 수 있도록 하는 핵심 연구 주제입니다. 최근 연구는 강화 학습(RL)을 사용하지 않는 방법에서 RL 기반 방법으로의 전환을 목격했습니다. 현재의 RL 기반 방법은 외부에서 제공되는 밀집된 보상 신호에 의존하거나 LLM 자체에서 내재적 보상 신호를 추출합니다. 그러나 이러한 접근 방식은 인간 지능에서 관찰되는 자기 진화 메커니즘과는 차이가 있습니다. 인간은 상호 토론과 협업을 통해 학습하고 능력을 향상시킵니다. 본 연구에서는 외부 감독 없이 에이전트 간 상호작용을 통해 학습함으로써 자율적으로 개선할 수 있는 새로운 프레임워크인 Co-Evolving Multi-Agent Systems(CoMAS)를 소개합니다. CoMAS는 풍부한 토론 역학에서 내재적 보상을 생성하고, LLM-as-a-judge 메커니즘을 통해 이러한 보상을 공식화하며, RL을 통해 각 에이전트의 정책을 최적화함으로써 분산적이고 확장 가능한 공동 진화를 가능하게 합니다. 실험 결과는 CoMAS가 훈련되지 않은 에이전트를 지속적으로 능가하며 대부분의 평가 설정에서 최첨단 성능을 달성함을 보여줍니다. 추가 연구는 상호작용 기반 보상 신호의 필요성을 확인하고 에이전트의 수와 다양성이 증가함에 따라 유망한 확장성을 보여줍니다. 이러한 발견들은 CoMAS를 LLM 기반 에이전트의 자기 진화를 위한 새롭고 효과적인 패러다임으로 확립합니다.
English
Self-evolution is a central research topic in enabling large language model (LLM)-based agents to continually improve their capabilities after pretraining. Recent research has witnessed a transition from reinforcement learning (RL)-free to RL-based methods. Current RL-based methods either rely on dense external reward signals or extract intrinsic reward signals from LLMs themselves. However, these approaches diverge from the self-evolution mechanisms observed in human intelligence, where individuals learn and improve through mutual discussion and collaboration. In this work, we introduce Co-Evolving Multi-Agent Systems (CoMAS), a novel framework that enables agents to improve autonomously by learning from inter-agent interactions without external supervision. CoMAS generates intrinsic rewards from rich discussion dynamics, employs an LLM-as-a-judge mechanism to formulate these rewards, and optimizes each agent's policy through RL, thereby enabling decentralized and scalable co-evolution. Experimental results demonstrate that CoMAS consistently outperforms untrained agents and achieves state-of-the-art performance across most evaluation settings. Ablation studies confirm the necessity of interaction-based reward signals and reveal promising scalability as the number and diversity of agents increase. These findings establish CoMAS as a novel and effective paradigm for self-evolution in LLM-based agents.
PDF162October 10, 2025