Evolução Multiagente: Autoaperfeiçoamento de LLM por meio da Coevolução
Multi-Agent Evolve: LLM Self-Improve through Co-evolution
October 27, 2025
Autores: Yixing Chen, Yiding Wang, Siqi Zhu, Haofei Yu, Tao Feng, Muhan Zhan, Mostofa Patwary, Jiaxuan You
cs.AI
Resumo
O Aprendizado por Reforço (RL) demonstrou potencial significativo para aprimorar as capacidades de raciocínio de modelos de linguagem de grande porte (LLMs). No entanto, o sucesso do RL para LLMs depende fortemente de conjuntos de dados curados por humanos e recompensas verificáveis, o que limita sua escalabilidade e generalidade. Métodos recentes de RL de Autojogo (Self-Play), inspirados pelo sucesso desse paradigma em jogos e no Go, visam aprimorar as capacidades de raciocínio dos LLMs sem dados anotados por humanos. Contudo, esses métodos dependem principalmente de um ambiente fundamentado para *feedback* (por exemplo, um interpretador Python ou um mecanismo de jogo); estendê-los para domínios gerais permanece um desafio. Para enfrentar esses desafios, propomos o Multi-Agent Evolve (MAE), uma estrutura que permite aos LLMs evoluir autonomamente na resolução de diversas tarefas, incluindo matemática, raciocínio e perguntas e respostas de conhecimento geral. O projeto central do MAE baseia-se em um trio de agentes interativos (Propositor, Solucionador, Juiz) instanciados a partir de um único LLM, e aplica aprendizado por reforço para otimizar seus comportamentos. O Propositor gera perguntas, o Solucionador tenta soluções e o Juiz avalia ambos, enquanto coevoluem. Experimentos com o Qwen2.5-3B-Instr demonstraram que o MAE alcança uma melhoria média de 4,54% em múltiplos *benchmarks*. Esses resultados destacam o MAE como um método escalável e eficiente em dados para aprimorar as habilidades gerais de raciocínio dos LLMs com dependência mínima de supervisão curada por humanos.
English
Reinforcement Learning (RL) has demonstrated significant potential in
enhancing the reasoning capabilities of large language models (LLMs). However,
the success of RL for LLMs heavily relies on human-curated datasets and
verifiable rewards, which limit their scalability and generality. Recent
Self-Play RL methods, inspired by the success of the paradigm in games and Go,
aim to enhance LLM reasoning capabilities without human-annotated data.
However, their methods primarily depend on a grounded environment for feedback
(e.g., a Python interpreter or a game engine); extending them to general
domains remains challenging. To address these challenges, we propose
Multi-Agent Evolve (MAE), a framework that enables LLMs to self-evolve in
solving diverse tasks, including mathematics, reasoning, and general knowledge
Q&A. The core design of MAE is based on a triplet of interacting agents
(Proposer, Solver, Judge) that are instantiated from a single LLM, and applies
reinforcement learning to optimize their behaviors. The Proposer generates
questions, the Solver attempts solutions, and the Judge evaluates both while
co-evolving. Experiments on Qwen2.5-3B-Instruct demonstrate that MAE achieves
an average improvement of 4.54% on multiple benchmarks. These results highlight
MAE as a scalable, data-efficient method for enhancing the general reasoning
abilities of LLMs with minimal reliance on human-curated supervision.