CoMAS : Systèmes Multi-Agents Co-Évolutifs via des Récompenses d'Interaction
CoMAS: Co-Evolving Multi-Agent Systems via Interaction Rewards
October 9, 2025
papers.authors: Xiangyuan Xue, Yifan Zhou, Guibin Zhang, Zaibin Zhang, Yijiang Li, Chen Zhang, Zhenfei Yin, Philip Torr, Wanli Ouyang, Lei Bai
cs.AI
papers.abstract
L'auto-évolution est un sujet de recherche central pour permettre aux agents basés sur des modèles de langage de grande taille (LLM) d'améliorer continuellement leurs capacités après le pré-entraînement. Les recherches récentes ont observé une transition des méthodes sans apprentissage par renforcement (RL) vers des méthodes basées sur le RL. Les méthodes actuelles basées sur le RL s'appuient soit sur des signaux de récompense externes denses, soit extraient des signaux de récompense intrinsèques des LLM eux-mêmes. Cependant, ces approches s'écartent des mécanismes d'auto-évolution observés dans l'intelligence humaine, où les individus apprennent et s'améliorent par la discussion et la collaboration mutuelles. Dans ce travail, nous introduisons les Systèmes Multi-Agents Co-Évolutifs (CoMAS), un cadre novateur qui permet aux agents de s'améliorer de manière autonome en apprenant des interactions inter-agents sans supervision externe. CoMAS génère des récompenses intrinsèques à partir de dynamiques de discussion riches, utilise un mécanisme de LLM-comme-juge pour formuler ces récompenses, et optimise la politique de chaque agent via le RL, permettant ainsi une co-évolution décentralisée et évolutive. Les résultats expérimentaux montrent que CoMAS surpasse systématiquement les agents non entraînés et atteint des performances de pointe dans la plupart des configurations d'évaluation. Les études d'ablation confirment la nécessité des signaux de récompense basés sur l'interaction et révèlent une prometteuse évolutivité à mesure que le nombre et la diversité des agents augmentent. Ces résultats établissent CoMAS comme un paradigme novateur et efficace pour l'auto-évolution des agents basés sur des LLM.
English
Self-evolution is a central research topic in enabling large language model
(LLM)-based agents to continually improve their capabilities after pretraining.
Recent research has witnessed a transition from reinforcement learning
(RL)-free to RL-based methods. Current RL-based methods either rely on dense
external reward signals or extract intrinsic reward signals from LLMs
themselves. However, these approaches diverge from the self-evolution
mechanisms observed in human intelligence, where individuals learn and improve
through mutual discussion and collaboration. In this work, we introduce
Co-Evolving Multi-Agent Systems (CoMAS), a novel framework that enables agents
to improve autonomously by learning from inter-agent interactions without
external supervision. CoMAS generates intrinsic rewards from rich discussion
dynamics, employs an LLM-as-a-judge mechanism to formulate these rewards, and
optimizes each agent's policy through RL, thereby enabling decentralized and
scalable co-evolution. Experimental results demonstrate that CoMAS consistently
outperforms untrained agents and achieves state-of-the-art performance across
most evaluation settings. Ablation studies confirm the necessity of
interaction-based reward signals and reveal promising scalability as the number
and diversity of agents increase. These findings establish CoMAS as a novel and
effective paradigm for self-evolution in LLM-based agents.