Мультиагентная эволюция: самоусовершенствование языковых моделей через коэволюцию

Аннотация

Обучение с подкреплением (Reinforcement Learning, RL) продемонстрировало значительный потенциал в улучшении способностей к рассуждению у крупных языковых моделей (Large Language Models, LLMs). Однако успех RL для LLMs в значительной степени зависит от человечески курируемых наборов данных и проверяемых наград, что ограничивает их масштабируемость и универсальность. Недавние методы Self-Play RL, вдохновленные успехами этой парадигмы в играх и го, направлены на улучшение способностей LLMs к рассуждению без использования аннотированных человеком данных. Тем не менее, эти методы в основном зависят от заземленной среды для получения обратной связи (например, интерпретатора Python или игрового движка), что затрудняет их применение в общих областях. Для решения этих проблем мы предлагаем Multi-Agent Evolve (MAE) — фреймворк, который позволяет LLMs самостоятельно развиваться в решении разнообразных задач, включая математику, рассуждения и вопросы общего знания. Основной дизайн MAE основан на триаде взаимодействующих агентов (Proposer, Solver, Judge), которые создаются из одной LLM, и применяет обучение с подкреплением для оптимизации их поведения. Proposer генерирует вопросы, Solver предлагает решения, а Judge оценивает их, одновременно развиваясь. Эксперименты на модели Qwen2.5-3B-Instruct показывают, что MAE обеспечивает среднее улучшение на 4,54% на нескольких бенчмарках. Эти результаты подчеркивают MAE как масштабируемый и эффективный по данным метод для улучшения общих способностей к рассуждению у LLMs с минимальной зависимостью от человеческого курирования.

English

Reinforcement Learning (RL) has demonstrated significant potential in enhancing the reasoning capabilities of large language models (LLMs). However, the success of RL for LLMs heavily relies on human-curated datasets and verifiable rewards, which limit their scalability and generality. Recent Self-Play RL methods, inspired by the success of the paradigm in games and Go, aim to enhance LLM reasoning capabilities without human-annotated data. However, their methods primarily depend on a grounded environment for feedback (e.g., a Python interpreter or a game engine); extending them to general domains remains challenging. To address these challenges, we propose Multi-Agent Evolve (MAE), a framework that enables LLMs to self-evolve in solving diverse tasks, including mathematics, reasoning, and general knowledge Q&A. The core design of MAE is based on a triplet of interacting agents (Proposer, Solver, Judge) that are instantiated from a single LLM, and applies reinforcement learning to optimize their behaviors. The Proposer generates questions, the Solver attempts solutions, and the Judge evaluates both while co-evolving. Experiments on Qwen2.5-3B-Instruct demonstrate that MAE achieves an average improvement of 4.54% on multiple benchmarks. These results highlight MAE as a scalable, data-efficient method for enhancing the general reasoning abilities of LLMs with minimal reliance on human-curated supervision.

Мультиагентная эволюция: самоусовершенствование языковых моделей через коэволюцию

Multi-Agent Evolve: LLM Self-Improve through Co-evolution

Аннотация

Support