ChatPaper.aiChatPaper

CoMAS: Совместно эволюционирующие мультиагентные системы с использованием вознаграждений за взаимодействие

CoMAS: Co-Evolving Multi-Agent Systems via Interaction Rewards

October 9, 2025
Авторы: Xiangyuan Xue, Yifan Zhou, Guibin Zhang, Zaibin Zhang, Yijiang Li, Chen Zhang, Zhenfei Yin, Philip Torr, Wanli Ouyang, Lei Bai
cs.AI

Аннотация

Самоэволюция является ключевой темой исследований, направленной на обеспечение постоянного улучшения возможностей агентов на основе больших языковых моделей (LLM) после предварительного обучения. В последних исследованиях наблюдается переход от методов, не использующих обучение с подкреплением (RL), к RL-ориентированным подходам. Современные RL-методы либо полагаются на плотные внешние сигналы вознаграждения, либо извлекают внутренние сигналы вознаграждения из самих LLM. Однако эти подходы расходятся с механизмами самоэволюции, наблюдаемыми в человеческом интеллекте, где индивиды учатся и совершенствуются через взаимное обсуждение и сотрудничество. В данной работе мы представляем Co-Evolving Multi-Agent Systems (CoMAS) — новую структуру, которая позволяет агентам автономно улучшаться, обучаясь на основе взаимодействий между агентами без внешнего контроля. CoMAS генерирует внутренние вознаграждения из динамики обсуждений, использует механизм LLM-as-a-judge для формулирования этих вознаграждений и оптимизирует политику каждого агента через RL, обеспечивая децентрализованную и масштабируемую коэволюцию. Экспериментальные результаты показывают, что CoMAS стабильно превосходит неподготовленных агентов и достигает наилучших результатов в большинстве оценочных сценариев. Абляционные исследования подтверждают необходимость сигналов вознаграждения, основанных на взаимодействии, и демонстрируют перспективную масштабируемость с увеличением числа и разнообразия агентов. Эти результаты устанавливают CoMAS как новую и эффективную парадигму для самоэволюции в агентах на основе LLM.
English
Self-evolution is a central research topic in enabling large language model (LLM)-based agents to continually improve their capabilities after pretraining. Recent research has witnessed a transition from reinforcement learning (RL)-free to RL-based methods. Current RL-based methods either rely on dense external reward signals or extract intrinsic reward signals from LLMs themselves. However, these approaches diverge from the self-evolution mechanisms observed in human intelligence, where individuals learn and improve through mutual discussion and collaboration. In this work, we introduce Co-Evolving Multi-Agent Systems (CoMAS), a novel framework that enables agents to improve autonomously by learning from inter-agent interactions without external supervision. CoMAS generates intrinsic rewards from rich discussion dynamics, employs an LLM-as-a-judge mechanism to formulate these rewards, and optimizes each agent's policy through RL, thereby enabling decentralized and scalable co-evolution. Experimental results demonstrate that CoMAS consistently outperforms untrained agents and achieves state-of-the-art performance across most evaluation settings. Ablation studies confirm the necessity of interaction-based reward signals and reveal promising scalability as the number and diversity of agents increase. These findings establish CoMAS as a novel and effective paradigm for self-evolution in LLM-based agents.
PDF162October 10, 2025