CoMAS: Ko-evolutionäre Multi-Agenten-Systeme durch Interaktionsbelohnungen
CoMAS: Co-Evolving Multi-Agent Systems via Interaction Rewards
October 9, 2025
papers.authors: Xiangyuan Xue, Yifan Zhou, Guibin Zhang, Zaibin Zhang, Yijiang Li, Chen Zhang, Zhenfei Yin, Philip Torr, Wanli Ouyang, Lei Bai
cs.AI
papers.abstract
Selbstevolution ist ein zentrales Forschungsthema, um Agenten auf der Basis großer Sprachmodelle (LLMs) zu befähigen, ihre Fähigkeiten nach dem Vortraining kontinuierlich zu verbessern. In jüngster Forschung ist ein Übergang von Methoden ohne Verstärkungslernen (RL) zu RL-basierten Methoden zu beobachten. Aktuelle RL-basierte Methoden verlassen sich entweder auf dichte externe Belohnungssignale oder extrahieren intrinsische Belohnungssignale aus den LLMs selbst. Diese Ansätze weichen jedoch von den Selbstevolutionsmechanismen ab, die in der menschlichen Intelligenz beobachtet werden, wo Individuen durch gegenseitige Diskussion und Zusammenarbeit lernen und sich verbessern. In dieser Arbeit stellen wir Co-Evolving Multi-Agent Systems (CoMAS) vor, ein neuartiges Framework, das es Agenten ermöglicht, sich autonom durch Lernen aus Interaktionen zwischen Agenten ohne externe Überwachung zu verbessern. CoMAS generiert intrinsische Belohnungen aus dynamischen Diskussionsprozessen, nutzt einen LLM-als-Richter-Mechanismus, um diese Belohnungen zu formulieren, und optimiert die Strategie jedes Agenten durch RL, wodurch dezentrale und skalierbare Ko-Evolution ermöglicht wird. Experimentelle Ergebnisse zeigen, dass CoMAS untrainierte Agenten konsequent übertrifft und in den meisten Evaluierungsszenarien Spitzenleistungen erzielt. Ablationsstudien bestätigen die Notwendigkeit interaktionsbasierter Belohnungssignale und zeigen vielversprechende Skalierbarkeit mit zunehmender Anzahl und Vielfalt der Agenten. Diese Ergebnisse etablieren CoMAS als ein neuartiges und effektives Paradigma für die Selbstevolution in LLM-basierten Agenten.
English
Self-evolution is a central research topic in enabling large language model
(LLM)-based agents to continually improve their capabilities after pretraining.
Recent research has witnessed a transition from reinforcement learning
(RL)-free to RL-based methods. Current RL-based methods either rely on dense
external reward signals or extract intrinsic reward signals from LLMs
themselves. However, these approaches diverge from the self-evolution
mechanisms observed in human intelligence, where individuals learn and improve
through mutual discussion and collaboration. In this work, we introduce
Co-Evolving Multi-Agent Systems (CoMAS), a novel framework that enables agents
to improve autonomously by learning from inter-agent interactions without
external supervision. CoMAS generates intrinsic rewards from rich discussion
dynamics, employs an LLM-as-a-judge mechanism to formulate these rewards, and
optimizes each agent's policy through RL, thereby enabling decentralized and
scalable co-evolution. Experimental results demonstrate that CoMAS consistently
outperforms untrained agents and achieves state-of-the-art performance across
most evaluation settings. Ablation studies confirm the necessity of
interaction-based reward signals and reveal promising scalability as the number
and diversity of agents increase. These findings establish CoMAS as a novel and
effective paradigm for self-evolution in LLM-based agents.