Evolução Multiagente: Autoaperfeiçoamento de LLM por meio da Coevolução

Resumo

O Aprendizado por Reforço (RL) demonstrou potencial significativo para aprimorar as capacidades de raciocínio de modelos de linguagem de grande porte (LLMs). No entanto, o sucesso do RL para LLMs depende fortemente de conjuntos de dados curados por humanos e recompensas verificáveis, o que limita sua escalabilidade e generalidade. Métodos recentes de RL de Autojogo (Self-Play), inspirados pelo sucesso desse paradigma em jogos e no Go, visam aprimorar as capacidades de raciocínio dos LLMs sem dados anotados por humanos. Contudo, esses métodos dependem principalmente de um ambiente fundamentado para *feedback* (por exemplo, um interpretador Python ou um mecanismo de jogo); estendê-los para domínios gerais permanece um desafio. Para enfrentar esses desafios, propomos o Multi-Agent Evolve (MAE), uma estrutura que permite aos LLMs evoluir autonomamente na resolução de diversas tarefas, incluindo matemática, raciocínio e perguntas e respostas de conhecimento geral. O projeto central do MAE baseia-se em um trio de agentes interativos (Propositor, Solucionador, Juiz) instanciados a partir de um único LLM, e aplica aprendizado por reforço para otimizar seus comportamentos. O Propositor gera perguntas, o Solucionador tenta soluções e o Juiz avalia ambos, enquanto coevoluem. Experimentos com o Qwen2.5-3B-Instr demonstraram que o MAE alcança uma melhoria média de 4,54% em múltiplos *benchmarks*. Esses resultados destacam o MAE como um método escalável e eficiente em dados para aprimorar as habilidades gerais de raciocínio dos LLMs com dependência mínima de supervisão curada por humanos.

English

Reinforcement Learning (RL) has demonstrated significant potential in enhancing the reasoning capabilities of large language models (LLMs). However, the success of RL for LLMs heavily relies on human-curated datasets and verifiable rewards, which limit their scalability and generality. Recent Self-Play RL methods, inspired by the success of the paradigm in games and Go, aim to enhance LLM reasoning capabilities without human-annotated data. However, their methods primarily depend on a grounded environment for feedback (e.g., a Python interpreter or a game engine); extending them to general domains remains challenging. To address these challenges, we propose Multi-Agent Evolve (MAE), a framework that enables LLMs to self-evolve in solving diverse tasks, including mathematics, reasoning, and general knowledge Q&A. The core design of MAE is based on a triplet of interacting agents (Proposer, Solver, Judge) that are instantiated from a single LLM, and applies reinforcement learning to optimize their behaviors. The Proposer generates questions, the Solver attempts solutions, and the Judge evaluates both while co-evolving. Experiments on Qwen2.5-3B-Instruct demonstrate that MAE achieves an average improvement of 4.54% on multiple benchmarks. These results highlight MAE as a scalable, data-efficient method for enhancing the general reasoning abilities of LLMs with minimal reliance on human-curated supervision.

Evolução Multiagente: Autoaperfeiçoamento de LLM por meio da Coevolução

Multi-Agent Evolve: LLM Self-Improve through Co-evolution

Resumo

Support