Evolución Multiagente: Automejora de LLM mediante Coevolución
Multi-Agent Evolve: LLM Self-Improve through Co-evolution
October 27, 2025
Autores: Yixing Chen, Yiding Wang, Siqi Zhu, Haofei Yu, Tao Feng, Muhan Zhan, Mostofa Patwary, Jiaxuan You
cs.AI
Resumen
El aprendizaje por refuerzo (RL) ha demostrado un potencial significativo para mejorar las capacidades de razonamiento de los grandes modelos de lenguaje (LLM). Sin embargo, el éxito del RL para LLM depende en gran medida de conjuntos de datos curados por humanos y recompensas verificables, lo que limita su escalabilidad y generalidad. Los métodos recientes de RL de Autojuego (Self-Play), inspirados por el éxito de este paradigma en juegos y Go, pretenden mejorar las capacidades de razonamiento de los LLM sin datos anotados por humanos. No obstante, estos métodos dependen principalmente de un entorno fundamentado para obtener retroalimentación (por ejemplo, un intérprete de Python o un motor de juego); extenderlos a dominios generales sigue siendo un desafío. Para abordar estos problemas, proponemos Multi-Agent Evolve (MAE), un marco que permite a los LLM auto-evolucionar en la resolución de diversas tareas, incluyendo matemáticas, razonamiento y preguntas y respuestas de conocimiento general. El diseño central de MAE se basa en un trío de agentes interactuantes (Proponente, Solucionador, Juez) que se instancian a partir de un único LLM, y aplica aprendizaje por refuerzo para optimizar sus comportamientos. El Proponente genera preguntas, el Solucionador intenta dar soluciones y el Juez evalúa a ambos mientras co-evolucionan. Los experimentos realizados con Qwen2.5-3B-Instruct demuestran que MAE logra una mejora promedio del 4.54% en múltiples benchmarks. Estos resultados destacan a MAE como un método escalable y eficiente en datos para mejorar las habilidades generales de razonamiento de los LLM con una dependencia mínima de la supervisión curada por humanos.
English
Reinforcement Learning (RL) has demonstrated significant potential in
enhancing the reasoning capabilities of large language models (LLMs). However,
the success of RL for LLMs heavily relies on human-curated datasets and
verifiable rewards, which limit their scalability and generality. Recent
Self-Play RL methods, inspired by the success of the paradigm in games and Go,
aim to enhance LLM reasoning capabilities without human-annotated data.
However, their methods primarily depend on a grounded environment for feedback
(e.g., a Python interpreter or a game engine); extending them to general
domains remains challenging. To address these challenges, we propose
Multi-Agent Evolve (MAE), a framework that enables LLMs to self-evolve in
solving diverse tasks, including mathematics, reasoning, and general knowledge
Q&A. The core design of MAE is based on a triplet of interacting agents
(Proposer, Solver, Judge) that are instantiated from a single LLM, and applies
reinforcement learning to optimize their behaviors. The Proposer generates
questions, the Solver attempts solutions, and the Judge evaluates both while
co-evolving. Experiments on Qwen2.5-3B-Instruct demonstrate that MAE achieves
an average improvement of 4.54% on multiple benchmarks. These results highlight
MAE as a scalable, data-efficient method for enhancing the general reasoning
abilities of LLMs with minimal reliance on human-curated supervision.