ChatPaper.aiChatPaper

Multi-Agent Evolve: Selbstverbesserung von LLM durch Ko-Evolution

Multi-Agent Evolve: LLM Self-Improve through Co-evolution

October 27, 2025
papers.authors: Yixing Chen, Yiding Wang, Siqi Zhu, Haofei Yu, Tao Feng, Muhan Zhan, Mostofa Patwary, Jiaxuan You
cs.AI

papers.abstract

Reinforcement Learning (RL) hat ein erhebliches Potenzial bei der Verbesserung der Reasoning-Fähigkeiten von Large Language Models (LLMs) gezeigt. Der Erfolg von RL für LLMs ist jedoch stark von menschlich kuratierten Datensätzen und überprüfbaren Belohnungen abhängig, was ihre Skalierbarkeit und Allgemeingültigkeit einschränkt. Neuere Self-Play-RL-Methoden, inspiriert durch den Erfolg dieses Paradigmas in Spielen und Go, zielen darauf ab, die Reasoning-Fähigkeiten von LLMs ohne menschlich annotierte Daten zu verbessern. Ihre Methoden sind jedoch primär auf eine geerdete Umgebung für Feedback angewiesen (z. B. einen Python-Interpreter oder eine Game-Engine); ihre Erweiterung auf allgemeine Domänen bleibt eine Herausforderung. Um diese Herausforderungen zu adressieren, schlagen wir Multi-Agent Evolve (MAE) vor, ein Framework, das es LLMs ermöglicht, sich selbstständig in der Lösung verschiedener Aufgaben weiterzuentwickeln, darunter Mathematik, logisches Schließen und allgemeine Wissensfragen. Das Kerndesign von MAE basiert auf einem Triplet interagierender Agenten (Proposer, Solver, Judge), die aus einem einzigen LLM instanziiert werden, und wendet Reinforcement Learning an, um ihr Verhalten zu optimieren. Der Proposer generiert Fragen, der Solver versucht Lösungen, und der Judge bewertet beide, während sie sich ko-evolutiv weiterentwickeln. Experimente mit Qwen2.5-3B-Instruct zeigen, dass MAE eine durchschnittliche Verbesserung von 4,54 % auf mehreren Benchmarks erreicht. Diese Ergebnisse unterstreichen, dass MAE eine skalierbare, dateneffiziente Methode zur Verbesserung der allgemeinen Reasoning-Fähigkeiten von LLMs mit minimaler Abhängigkeit von menschlich kuratierten Aufsichtsdaten ist.
English
Reinforcement Learning (RL) has demonstrated significant potential in enhancing the reasoning capabilities of large language models (LLMs). However, the success of RL for LLMs heavily relies on human-curated datasets and verifiable rewards, which limit their scalability and generality. Recent Self-Play RL methods, inspired by the success of the paradigm in games and Go, aim to enhance LLM reasoning capabilities without human-annotated data. However, their methods primarily depend on a grounded environment for feedback (e.g., a Python interpreter or a game engine); extending them to general domains remains challenging. To address these challenges, we propose Multi-Agent Evolve (MAE), a framework that enables LLMs to self-evolve in solving diverse tasks, including mathematics, reasoning, and general knowledge Q&A. The core design of MAE is based on a triplet of interacting agents (Proposer, Solver, Judge) that are instantiated from a single LLM, and applies reinforcement learning to optimize their behaviors. The Proposer generates questions, the Solver attempts solutions, and the Judge evaluates both while co-evolving. Experiments on Qwen2.5-3B-Instruct demonstrate that MAE achieves an average improvement of 4.54% on multiple benchmarks. These results highlight MAE as a scalable, data-efficient method for enhancing the general reasoning abilities of LLMs with minimal reliance on human-curated supervision.
PDF112December 31, 2025