CoMAS: Sistemas Multiagente Co-Evolutivos mediante Recompensas de Interacción
CoMAS: Co-Evolving Multi-Agent Systems via Interaction Rewards
October 9, 2025
Autores: Xiangyuan Xue, Yifan Zhou, Guibin Zhang, Zaibin Zhang, Yijiang Li, Chen Zhang, Zhenfei Yin, Philip Torr, Wanli Ouyang, Lei Bai
cs.AI
Resumen
La auto-evolución es un tema central de investigación para permitir que los agentes basados en modelos de lenguaje grande (LLM) mejoren continuamente sus capacidades después del preentrenamiento. Investigaciones recientes han observado una transición de métodos libres de aprendizaje por refuerzo (RL) a métodos basados en RL. Los métodos actuales basados en RL dependen de señales de recompensa externas densas o extraen señales de recompensa intrínsecas de los propios LLM. Sin embargo, estos enfoques divergen de los mecanismos de auto-evolución observados en la inteligencia humana, donde los individuos aprenden y mejoran a través de la discusión y colaboración mutua. En este trabajo, presentamos Sistemas Multi-Agente Co-Evolutivos (CoMAS), un marco novedoso que permite a los agentes mejorar de manera autónoma aprendiendo de las interacciones entre agentes sin supervisión externa. CoMAS genera recompensas intrínsecas a partir de dinámicas de discusión ricas, emplea un mecanismo de LLM-como-juez para formular estas recompensas y optimiza la política de cada agente mediante RL, permitiendo así una co-evolución descentralizada y escalable. Los resultados experimentales demuestran que CoMAS supera consistentemente a los agentes no entrenados y logra un rendimiento de vanguardia en la mayoría de los escenarios de evaluación. Los estudios de ablación confirman la necesidad de señales de recompensa basadas en la interacción y revelan una escalabilidad prometedora a medida que aumenta el número y la diversidad de agentes. Estos hallazgos establecen a CoMAS como un paradigma novedoso y efectivo para la auto-evolución en agentes basados en LLM.
English
Self-evolution is a central research topic in enabling large language model
(LLM)-based agents to continually improve their capabilities after pretraining.
Recent research has witnessed a transition from reinforcement learning
(RL)-free to RL-based methods. Current RL-based methods either rely on dense
external reward signals or extract intrinsic reward signals from LLMs
themselves. However, these approaches diverge from the self-evolution
mechanisms observed in human intelligence, where individuals learn and improve
through mutual discussion and collaboration. In this work, we introduce
Co-Evolving Multi-Agent Systems (CoMAS), a novel framework that enables agents
to improve autonomously by learning from inter-agent interactions without
external supervision. CoMAS generates intrinsic rewards from rich discussion
dynamics, employs an LLM-as-a-judge mechanism to formulate these rewards, and
optimizes each agent's policy through RL, thereby enabling decentralized and
scalable co-evolution. Experimental results demonstrate that CoMAS consistently
outperforms untrained agents and achieves state-of-the-art performance across
most evaluation settings. Ablation studies confirm the necessity of
interaction-based reward signals and reveal promising scalability as the number
and diversity of agents increase. These findings establish CoMAS as a novel and
effective paradigm for self-evolution in LLM-based agents.