ChatPaper.aiChatPaper

CoMAS: Co-Evoluerende Multi-Agent Systemen via Interactiebeloningen

CoMAS: Co-Evolving Multi-Agent Systems via Interaction Rewards

October 9, 2025
Auteurs: Xiangyuan Xue, Yifan Zhou, Guibin Zhang, Zaibin Zhang, Yijiang Li, Chen Zhang, Zhenfei Yin, Philip Torr, Wanli Ouyang, Lei Bai
cs.AI

Samenvatting

Zelf-evolutie is een centraal onderzoeksonderwerp bij het mogelijk maken van grote taalmodel (LLM)-gebaseerde agents om hun capaciteiten continu te verbeteren na voorafgaande training. Recent onderzoek heeft een overgang gezien van methoden zonder reinforcement learning (RL) naar RL-gebaseerde methoden. Huidige RL-gebaseerde methoden vertrouwen ofwel op dichte externe beloningssignalen of halen intrinsieke beloningssignalen uit de LLM's zelf. Deze benaderingen wijken echter af van de zelf-evolutiemechanismen die worden waargenomen bij menselijke intelligentie, waar individuen leren en verbeteren door onderlinge discussie en samenwerking. In dit werk introduceren we Co-Evolving Multi-Agent Systems (CoMAS), een nieuw framework dat agents in staat stelt om autonoom te verbeteren door te leren van interacties tussen agents zonder externe supervisie. CoMAS genereert intrinsieke beloningen uit rijke discussiedynamieken, gebruikt een LLM-als-rechtermechanisme om deze beloningen te formuleren, en optimaliseert het beleid van elke agent via RL, waardoor gedecentraliseerde en schaalbare co-evolutie mogelijk wordt. Experimentele resultaten tonen aan dat CoMAS consistent beter presteert dan ongetrainde agents en state-of-the-art prestaties bereikt in de meeste evaluatieomgevingen. Ablatiestudies bevestigen de noodzaak van interactiegebaseerde beloningssignalen en laten veelbelovende schaalbaarheid zien naarmate het aantal en de diversiteit van agents toenemen. Deze bevindingen vestigen CoMAS als een nieuw en effectief paradigma voor zelf-evolutie in LLM-gebaseerde agents.
English
Self-evolution is a central research topic in enabling large language model (LLM)-based agents to continually improve their capabilities after pretraining. Recent research has witnessed a transition from reinforcement learning (RL)-free to RL-based methods. Current RL-based methods either rely on dense external reward signals or extract intrinsic reward signals from LLMs themselves. However, these approaches diverge from the self-evolution mechanisms observed in human intelligence, where individuals learn and improve through mutual discussion and collaboration. In this work, we introduce Co-Evolving Multi-Agent Systems (CoMAS), a novel framework that enables agents to improve autonomously by learning from inter-agent interactions without external supervision. CoMAS generates intrinsic rewards from rich discussion dynamics, employs an LLM-as-a-judge mechanism to formulate these rewards, and optimizes each agent's policy through RL, thereby enabling decentralized and scalable co-evolution. Experimental results demonstrate that CoMAS consistently outperforms untrained agents and achieves state-of-the-art performance across most evaluation settings. Ablation studies confirm the necessity of interaction-based reward signals and reveal promising scalability as the number and diversity of agents increase. These findings establish CoMAS as a novel and effective paradigm for self-evolution in LLM-based agents.
PDF182October 10, 2025