Multi-Agent Evolutie: Zelfverbetering van LLM's door Co-evolutie
Multi-Agent Evolve: LLM Self-Improve through Co-evolution
October 27, 2025
Auteurs: Yixing Chen, Yiding Wang, Siqi Zhu, Haofei Yu, Tao Feng, Muhan Zhan, Mostofa Patwary, Jiaxuan You
cs.AI
Samenvatting
Versterkend leren (Reinforcement Learning, RL) heeft aanzienlijk potentieel getoond om de redeneervermogens van grote taalmodellen (Large Language Models, LLM's) te verbeteren. Het succes van RL voor LLM's is echter sterk afhankelijk van door mensen samengestelde datasets en verifieerbare beloningen, wat hun schaalbaarheid en algemene toepasbaarheid beperkt. Recente zelf-spel (Self-Play) RL-methoden, geïnspireerd door het succes van dit paradigma in games en Go, streven ernaar de redeneervermogen van LLM's te verbeteren zonder door mensen geannoteerde data. Hun methoden zijn echter voornamelijk afhankelijk van een gegronde omgeving voor feedback (bijvoorbeeld een Python-interpreter of een game-engine); het uitbreiden ervan naar algemene domeinen blijft een uitdaging. Om deze uitdagingen aan te pakken, stellen we Multi-Agent Evolve (MAE) voor, een raamwerk dat LLM's in staat stelt zichzelf te ontwikkelen bij het oplossen van diverse taken, waaronder wiskunde, redeneren en algemene kennis Q&A. De kernontwerp van MAE is gebaseerd op een triplet van interagerende agents (Voorsteller, Oplosser, Beoordelaar) die worden geïnstantieerd vanuit één enkel LLM, en past versterkend leren toe om hun gedrag te optimaliseren. De Voorsteller genereert vragen, de Oplosser probeert oplossingen en de Beoordelaar evalueert beide, terwijl ze gezamenlijk evolueren. Experimenten met Qwen2.5-3B-Instruct tonen aan dat MAE een gemiddelde verbetering van 4,54% bereikt op meerdere benchmarks. Deze resultaten benadrukken MAE als een schaalbare, data-efficiënte methode voor het verbeteren van de algemene redeneervermogens van LLM's met minimale afhankelijkheid van door mensen samengesteld toezicht.
English
Reinforcement Learning (RL) has demonstrated significant potential in
enhancing the reasoning capabilities of large language models (LLMs). However,
the success of RL for LLMs heavily relies on human-curated datasets and
verifiable rewards, which limit their scalability and generality. Recent
Self-Play RL methods, inspired by the success of the paradigm in games and Go,
aim to enhance LLM reasoning capabilities without human-annotated data.
However, their methods primarily depend on a grounded environment for feedback
(e.g., a Python interpreter or a game engine); extending them to general
domains remains challenging. To address these challenges, we propose
Multi-Agent Evolve (MAE), a framework that enables LLMs to self-evolve in
solving diverse tasks, including mathematics, reasoning, and general knowledge
Q&A. The core design of MAE is based on a triplet of interacting agents
(Proposer, Solver, Judge) that are instantiated from a single LLM, and applies
reinforcement learning to optimize their behaviors. The Proposer generates
questions, the Solver attempts solutions, and the Judge evaluates both while
co-evolving. Experiments on Qwen2.5-3B-Instruct demonstrate that MAE achieves
an average improvement of 4.54% on multiple benchmarks. These results highlight
MAE as a scalable, data-efficient method for enhancing the general reasoning
abilities of LLMs with minimal reliance on human-curated supervision.