ChatPaper.aiChatPaper

CoMAS: Sistemas Multiagentes Coevolutivos via Recompensas de Interação

CoMAS: Co-Evolving Multi-Agent Systems via Interaction Rewards

October 9, 2025
Autores: Xiangyuan Xue, Yifan Zhou, Guibin Zhang, Zaibin Zhang, Yijiang Li, Chen Zhang, Zhenfei Yin, Philip Torr, Wanli Ouyang, Lei Bai
cs.AI

Resumo

A auto-evolução é um tópico central de pesquisa para permitir que agentes baseados em grandes modelos de linguagem (LLMs) melhorem continuamente suas capacidades após o pré-treinamento. Pesquisas recentes têm observado uma transição de métodos livres de aprendizado por reforço (RL) para métodos baseados em RL. Os métodos atuais baseados em RL dependem de sinais de recompensa externa densa ou extraem sinais de recompensa intrínseca dos próprios LLMs. No entanto, essas abordagens divergem dos mecanismos de auto-evolução observados na inteligência humana, onde os indivíduos aprendem e melhoram por meio de discussões e colaborações mútuas. Neste trabalho, introduzimos Sistemas de Multiagentes Co-Evolutivos (CoMAS), uma nova estrutura que permite que os agentes melhorem autonomamente aprendendo com interações entre agentes sem supervisão externa. O CoMAS gera recompensas intrínsecas a partir de dinâmicas ricas de discussão, emprega um mecanismo de LLM-como-juiz para formular essas recompensas e otimiza a política de cada agente por meio de RL, permitindo assim uma co-evolução descentralizada e escalável. Resultados experimentais demonstram que o CoMAS supera consistentemente agentes não treinados e alcança desempenho de ponta na maioria das configurações de avaliação. Estudos de ablação confirmam a necessidade de sinais de recompensa baseados em interação e revelam uma escalabilidade promissora à medida que o número e a diversidade de agentes aumentam. Esses achados estabelecem o CoMAS como um paradigma novo e eficaz para a auto-evolução em agentes baseados em LLMs.
English
Self-evolution is a central research topic in enabling large language model (LLM)-based agents to continually improve their capabilities after pretraining. Recent research has witnessed a transition from reinforcement learning (RL)-free to RL-based methods. Current RL-based methods either rely on dense external reward signals or extract intrinsic reward signals from LLMs themselves. However, these approaches diverge from the self-evolution mechanisms observed in human intelligence, where individuals learn and improve through mutual discussion and collaboration. In this work, we introduce Co-Evolving Multi-Agent Systems (CoMAS), a novel framework that enables agents to improve autonomously by learning from inter-agent interactions without external supervision. CoMAS generates intrinsic rewards from rich discussion dynamics, employs an LLM-as-a-judge mechanism to formulate these rewards, and optimizes each agent's policy through RL, thereby enabling decentralized and scalable co-evolution. Experimental results demonstrate that CoMAS consistently outperforms untrained agents and achieves state-of-the-art performance across most evaluation settings. Ablation studies confirm the necessity of interaction-based reward signals and reveal promising scalability as the number and diversity of agents increase. These findings establish CoMAS as a novel and effective paradigm for self-evolution in LLM-based agents.
PDF182October 10, 2025