ChatPaper.aiChatPaper

Мульти-агентная эволюция: самоусовершенствование больших языковых моделей через коэволюцию

Multi-Agent Evolve: LLM Self-Improve through Co-evolution

October 27, 2025
Авторы: Yixing Chen, Yiding Wang, Siqi Zhu, Haofei Yu, Tao Feng, Muhan Zhan, Mostofa Patwary, Jiaxuan You
cs.AI

Аннотация

Обучение с подкреплением (RL) продемонстрировало значительный потенциал в повышении способностей к рассуждению больших языковых моделей (LLM). Однако успех RL для LLM сильно зависит от курируемых человеком наборов данных и проверяемых вознаграждений, что ограничивает их масштабируемость и универсальность. Недавние методы RL с самодостаточной игрой (Self-Play RL), вдохновленные успехом этой парадигмы в играх и Го, направлены на улучшение способностей LLM к рассуждению без аннотированных человеком данных. Однако эти методы в основном зависят от наличия заземленной среды для получения обратной связи (например, интерпретатора Python или игрового движка); их применение в общих областях остается сложной задачей. Для решения этих проблем мы предлагаем фреймворк Multi-Agent Evolve (MAE), который позволяет LLM самостоятельно эволюционировать в решении разнообразных задач, включая математику, логические рассуждения и вопросы-ответы общего характера. Основная конструкция MAE основана на триаде взаимодействующих агентов (Предлагающий, Решающий, Судья), которые создаются из одной LLM, и применяет обучение с подкреплением для оптимизации их поведения. Предлагающий генерирует вопросы, Решающий пытается найти решения, а Судья оценивает их, одновременно коэволюционируя. Эксперименты на модели Qwen2.5-3B-Instruct показывают, что MAE достигает среднего улучшения на 4.54% по нескольким бенчмаркам. Эти результаты подчеркивают, что MAE является масштабируемым, эффективным по данным методом для повышения общих способностей к рассуждению у LLM при минимальной зависимости от курируемого человеком контроля.
English
Reinforcement Learning (RL) has demonstrated significant potential in enhancing the reasoning capabilities of large language models (LLMs). However, the success of RL for LLMs heavily relies on human-curated datasets and verifiable rewards, which limit their scalability and generality. Recent Self-Play RL methods, inspired by the success of the paradigm in games and Go, aim to enhance LLM reasoning capabilities without human-annotated data. However, their methods primarily depend on a grounded environment for feedback (e.g., a Python interpreter or a game engine); extending them to general domains remains challenging. To address these challenges, we propose Multi-Agent Evolve (MAE), a framework that enables LLMs to self-evolve in solving diverse tasks, including mathematics, reasoning, and general knowledge Q&A. The core design of MAE is based on a triplet of interacting agents (Proposer, Solver, Judge) that are instantiated from a single LLM, and applies reinforcement learning to optimize their behaviors. The Proposer generates questions, the Solver attempts solutions, and the Judge evaluates both while co-evolving. Experiments on Qwen2.5-3B-Instruct demonstrate that MAE achieves an average improvement of 4.54% on multiple benchmarks. These results highlight MAE as a scalable, data-efficient method for enhancing the general reasoning abilities of LLMs with minimal reliance on human-curated supervision.
PDF112December 31, 2025