MALT: Melhorando o Raciocínio com Treinamento de LLM Multiagente

Resumo

Permitir uma colaboração eficaz entre LLMs é um passo crucial para o desenvolvimento de sistemas autônomos capazes de resolver problemas complexos. Embora os LLMs sejam normalmente utilizados como geradores de modelos únicos, nos quais os humanos criticam e refinam suas saídas, o potencial para modelos colaborativos treinados em conjunto permanece amplamente inexplorado. Apesar dos resultados promissores em configurações de comunicação e debate multiagentes, pouco progresso foi feito no treinamento de modelos para trabalhar juntos em tarefas. Neste artigo, apresentamos um primeiro passo em direção ao "treinamento de LLM multiagente" (MALT) em problemas de raciocínio. Nossa abordagem emprega uma configuração multiagente sequencial com LLMs heterogêneos designados para papéis especializados: um gerador, verificador e modelo de refinamento resolvendo problemas de forma iterativa. Propomos um processo de geração de dados sintéticos baseado em expansão de trajetória e uma estratégia de atribuição de crédito orientada por recompensas baseadas em resultados conjuntos. Isso permite que nossa configuração pós-treinamento utilize trajetórias positivas e negativas para melhorar autonomamente as capacidades especializadas de cada modelo como parte de um sistema sequencial conjunto. Avaliamos nossa abordagem em MATH, GSM8k e CQA, onde o MALT nos modelos Llama 3.1 8B alcança melhorias relativas de 14,14%, 7,12% e 9,40%, respectivamente, em relação ao mesmo modelo de referência. Isso demonstra um avanço inicial nas capacidades cooperativas multiagentes para o desempenho em questões de raciocínio matemático e de senso comum. De forma mais geral, nosso trabalho fornece uma direção concreta para pesquisas em torno de abordagens de treinamento de LLM multiagente.

English

Enabling effective collaboration among LLMs is a crucial step toward developing autonomous systems capable of solving complex problems. While LLMs are typically used as single-model generators, where humans critique and refine their outputs, the potential for jointly-trained collaborative models remains largely unexplored. Despite promising results in multi-agent communication and debate settings, little progress has been made in training models to work together on tasks. In this paper, we present a first step toward "Multi-agent LLM training" (MALT) on reasoning problems. Our approach employs a sequential multi-agent setup with heterogeneous LLMs assigned specialized roles: a generator, verifier, and refinement model iteratively solving problems. We propose a trajectory-expansion-based synthetic data generation process and a credit assignment strategy driven by joint outcome based rewards. This enables our post-training setup to utilize both positive and negative trajectories to autonomously improve each model's specialized capabilities as part of a joint sequential system. We evaluate our approach across MATH, GSM8k, and CQA, where MALT on Llama 3.1 8B models achieves relative improvements of 14.14%, 7.12%, and 9.40% respectively over the same baseline model. This demonstrates an early advance in multi-agent cooperative capabilities for performance on mathematical and common sense reasoning questions. More generally, our work provides a concrete direction for research around multi-agent LLM training approaches.

MALT: Melhorando o Raciocínio com Treinamento de LLM Multiagente

MALT: Improving Reasoning with Multi-Agent LLM Training

Resumo

Support