ChatPaper.aiChatPaper

Évolution Multi-Agent : Auto-Amélioration des LLM par Coévolution

Multi-Agent Evolve: LLM Self-Improve through Co-evolution

October 27, 2025
papers.authors: Yixing Chen, Yiding Wang, Siqi Zhu, Haofei Yu, Tao Feng, Muhan Zhan, Mostofa Patwary, Jiaxuan You
cs.AI

papers.abstract

L'apprentissage par renforcement (RL) a démontré un potentiel significatif pour améliorer les capacités de raisonnement des grands modèles de langage (LLM). Cependant, le succès du RL pour les LLM dépend fortement de jeux de données organisés par des humains et de récompenses vérifiables, ce qui limite leur évolutivité et leur généralité. Les méthodes récentes de RL par auto-jeu, inspirées par le succès de ce paradigme dans les jeux et le Go, visent à améliorer les capacités de raisonnement des LLM sans données annotées manuellement. Cependant, ces méthodes dépendent principalement d'un environnement ancré pour le retour d'information (par exemple, un interpréteur Python ou un moteur de jeu) ; leur extension à des domaines généraux reste difficile. Pour relever ces défis, nous proposons Multi-Agent Evolve (MAE), un cadre qui permet aux LLMs de s'auto-évoluer pour résoudre des tâches diverses, incluant les mathématiques, le raisonnement et les questions-réponses de culture générale. La conception centrale de MAE repose sur un triplet d'agents en interaction (Proposant, Solveur, Juge) qui sont instanciés à partir d'un seul LLM, et applique l'apprentissage par renforcement pour optimiser leurs comportements. Le Proposant génère des questions, le Solveur tente des solutions et le Juge évalue les deux, le tout en co-évolution. Des expériences sur Qwen2.5-3B-Instruct démontrent que MAE atteint une amélioration moyenne de 4,54 % sur plusieurs benchmarks. Ces résultats soulignent que MAE est une méthode évolutive et économe en données pour améliorer les capacités de raisonnement général des LLMs avec une dépendance minimale à la supervision humaine.
English
Reinforcement Learning (RL) has demonstrated significant potential in enhancing the reasoning capabilities of large language models (LLMs). However, the success of RL for LLMs heavily relies on human-curated datasets and verifiable rewards, which limit their scalability and generality. Recent Self-Play RL methods, inspired by the success of the paradigm in games and Go, aim to enhance LLM reasoning capabilities without human-annotated data. However, their methods primarily depend on a grounded environment for feedback (e.g., a Python interpreter or a game engine); extending them to general domains remains challenging. To address these challenges, we propose Multi-Agent Evolve (MAE), a framework that enables LLMs to self-evolve in solving diverse tasks, including mathematics, reasoning, and general knowledge Q&A. The core design of MAE is based on a triplet of interacting agents (Proposer, Solver, Judge) that are instantiated from a single LLM, and applies reinforcement learning to optimize their behaviors. The Proposer generates questions, the Solver attempts solutions, and the Judge evaluates both while co-evolving. Experiments on Qwen2.5-3B-Instruct demonstrate that MAE achieves an average improvement of 4.54% on multiple benchmarks. These results highlight MAE as a scalable, data-efficient method for enhancing the general reasoning abilities of LLMs with minimal reliance on human-curated supervision.
PDF112December 31, 2025