Multi-Agent Evolve : Auto-amélioration des LLM par co-évolution

Résumé

L'apprentissage par renforcement (Reinforcement Learning, RL) a démontré un potentiel significatif pour améliorer les capacités de raisonnement des grands modèles de langage (Large Language Models, LLMs). Cependant, le succès du RL pour les LLMs dépend fortement de jeux de données annotés par des humains et de récompenses vérifiables, ce qui limite leur évolutivité et leur généralité. Les méthodes récentes de RL par auto-jeu (Self-Play RL), inspirées par le succès de ce paradigme dans les jeux et le Go, visent à améliorer les capacités de raisonnement des LLMs sans données annotées par des humains. Cependant, ces méthodes reposent principalement sur un environnement ancré pour obtenir des retours (par exemple, un interpréteur Python ou un moteur de jeu) ; leur extension à des domaines généraux reste un défi. Pour relever ces défis, nous proposons Multi-Agent Evolve (MAE), un cadre qui permet aux LLMs de s'auto-évoluer pour résoudre des tâches variées, incluant les mathématiques, le raisonnement et les questions-réponses de culture générale. La conception centrale de MAE repose sur un triplet d'agents interactifs (Proposeur, Solveur, Juge) instanciés à partir d'un seul LLM, et applique l'apprentissage par renforcement pour optimiser leurs comportements. Le Proposeur génère des questions, le Solveur tente des solutions, et le Juge évalue les deux tout en co-évoluant. Les expériences sur Qwen2.5-3B-Instruct démontrent que MAE atteint une amélioration moyenne de 4,54 % sur plusieurs benchmarks. Ces résultats mettent en évidence MAE comme une méthode évolutive et économe en données pour améliorer les capacités de raisonnement général des LLMs avec une dépendance minimale à la supervision humaine.

English

Reinforcement Learning (RL) has demonstrated significant potential in enhancing the reasoning capabilities of large language models (LLMs). However, the success of RL for LLMs heavily relies on human-curated datasets and verifiable rewards, which limit their scalability and generality. Recent Self-Play RL methods, inspired by the success of the paradigm in games and Go, aim to enhance LLM reasoning capabilities without human-annotated data. However, their methods primarily depend on a grounded environment for feedback (e.g., a Python interpreter or a game engine); extending them to general domains remains challenging. To address these challenges, we propose Multi-Agent Evolve (MAE), a framework that enables LLMs to self-evolve in solving diverse tasks, including mathematics, reasoning, and general knowledge Q&A. The core design of MAE is based on a triplet of interacting agents (Proposer, Solver, Judge) that are instantiated from a single LLM, and applies reinforcement learning to optimize their behaviors. The Proposer generates questions, the Solver attempts solutions, and the Judge evaluates both while co-evolving. Experiments on Qwen2.5-3B-Instruct demonstrate that MAE achieves an average improvement of 4.54% on multiple benchmarks. These results highlight MAE as a scalable, data-efficient method for enhancing the general reasoning abilities of LLMs with minimal reliance on human-curated supervision.

Multi-Agent Evolve : Auto-amélioration des LLM par co-évolution

Multi-Agent Evolve: LLM Self-Improve through Co-evolution

Résumé

Support