Evoluzione Multi-Agente: Auto-Miglioramento dei LLM attraverso la Co-evoluzione
Multi-Agent Evolve: LLM Self-Improve through Co-evolution
October 27, 2025
Autori: Yixing Chen, Yiding Wang, Siqi Zhu, Haofei Yu, Tao Feng, Muhan Zhan, Mostofa Patwary, Jiaxuan You
cs.AI
Abstract
L’apprendimento per rinforzo (RL) ha dimostrato un potenziale significativo nel migliorare le capacità di ragionamento dei grandi modelli linguistici (LLM). Tuttavia, il successo del RL per gli LLM dipende fortemente da dataset curati da esseri umani e ricompense verificabili, fattori che ne limitano la scalabilità e la generalità. I recenti metodi di RL ad auto-gioco, ispirati dal successo di questo paradigma in giochi come il Go, mirano a potenziare le capacità di ragionamento degli LLM senza l’uso di dati annotati manualmente. Tuttavia, tali metodi dipendono principalmente da un ambiente fondato per il feedback (ad esempio, un interprete Python o un motore di gioco); estenderli a domini generali rimane una sfida. Per affrontare queste problematiche, proponiamo Multi-Agent Evolve (MAE), un framework che consente agli LLM di auto-evolversi nella risoluzione di compiti diversificati, inclusi matematica, ragionamento e domande a risposta aperta di cultura generale. Il design centrale di MAE si basa su una triade di agenti interagenti (Proponente, Risolutore, Giudice) istanziati a partire da un singolo LLM, e applica l’apprendimento per rinforzo per ottimizzarne i comportamenti. Il Proponente genera domande, il Risolutore tenta di fornire soluzioni e il Giudice valuta entrambi, co-evolvendosi. Esperimenti condotti su Qwen2.5-3B-Instruct dimostrano che MAE raggiunge un miglioramento medio del 4,54% su molteplici benchmark. Questi risultati evidenziano come MAE rappresenti un metodo scalabile ed efficiente dal punto di vista dei dati per potenziare le capacità di ragionamento generale degli LLM con un affidamento minimo sulla supervisione umana.
English
Reinforcement Learning (RL) has demonstrated significant potential in
enhancing the reasoning capabilities of large language models (LLMs). However,
the success of RL for LLMs heavily relies on human-curated datasets and
verifiable rewards, which limit their scalability and generality. Recent
Self-Play RL methods, inspired by the success of the paradigm in games and Go,
aim to enhance LLM reasoning capabilities without human-annotated data.
However, their methods primarily depend on a grounded environment for feedback
(e.g., a Python interpreter or a game engine); extending them to general
domains remains challenging. To address these challenges, we propose
Multi-Agent Evolve (MAE), a framework that enables LLMs to self-evolve in
solving diverse tasks, including mathematics, reasoning, and general knowledge
Q&A. The core design of MAE is based on a triplet of interacting agents
(Proposer, Solver, Judge) that are instantiated from a single LLM, and applies
reinforcement learning to optimize their behaviors. The Proposer generates
questions, the Solver attempts solutions, and the Judge evaluates both while
co-evolving. Experiments on Qwen2.5-3B-Instruct demonstrate that MAE achieves
an average improvement of 4.54% on multiple benchmarks. These results highlight
MAE as a scalable, data-efficient method for enhancing the general reasoning
abilities of LLMs with minimal reliance on human-curated supervision.