MALT: Melhorando o Raciocínio com Treinamento de LLM Multiagente
MALT: Improving Reasoning with Multi-Agent LLM Training
December 2, 2024
Autores: Sumeet Ramesh Motwani, Chandler Smith, Rocktim Jyoti Das, Markian Rybchuk, Philip H. S. Torr, Ivan Laptev, Fabio Pizzati, Ronald Clark, Christian Schroeder de Witt
cs.AI
Resumo
Permitir uma colaboração eficaz entre LLMs é um passo crucial para o desenvolvimento de sistemas autônomos capazes de resolver problemas complexos. Embora os LLMs sejam normalmente utilizados como geradores de modelos únicos, nos quais os humanos criticam e refinam suas saídas, o potencial para modelos colaborativos treinados em conjunto permanece amplamente inexplorado. Apesar dos resultados promissores em configurações de comunicação e debate multiagentes, pouco progresso foi feito no treinamento de modelos para trabalhar juntos em tarefas. Neste artigo, apresentamos um primeiro passo em direção ao "treinamento de LLM multiagente" (MALT) em problemas de raciocínio. Nossa abordagem emprega uma configuração multiagente sequencial com LLMs heterogêneos designados para papéis especializados: um gerador, verificador e modelo de refinamento resolvendo problemas de forma iterativa. Propomos um processo de geração de dados sintéticos baseado em expansão de trajetória e uma estratégia de atribuição de crédito orientada por recompensas baseadas em resultados conjuntos. Isso permite que nossa configuração pós-treinamento utilize trajetórias positivas e negativas para melhorar autonomamente as capacidades especializadas de cada modelo como parte de um sistema sequencial conjunto. Avaliamos nossa abordagem em MATH, GSM8k e CQA, onde o MALT nos modelos Llama 3.1 8B alcança melhorias relativas de 14,14%, 7,12% e 9,40%, respectivamente, em relação ao mesmo modelo de referência. Isso demonstra um avanço inicial nas capacidades cooperativas multiagentes para o desempenho em questões de raciocínio matemático e de senso comum. De forma mais geral, nosso trabalho fornece uma direção concreta para pesquisas em torno de abordagens de treinamento de LLM multiagente.
English
Enabling effective collaboration among LLMs is a crucial step toward
developing autonomous systems capable of solving complex problems. While LLMs
are typically used as single-model generators, where humans critique and refine
their outputs, the potential for jointly-trained collaborative models remains
largely unexplored. Despite promising results in multi-agent communication and
debate settings, little progress has been made in training models to work
together on tasks. In this paper, we present a first step toward "Multi-agent
LLM training" (MALT) on reasoning problems. Our approach employs a sequential
multi-agent setup with heterogeneous LLMs assigned specialized roles: a
generator, verifier, and refinement model iteratively solving problems. We
propose a trajectory-expansion-based synthetic data generation process and a
credit assignment strategy driven by joint outcome based rewards. This enables
our post-training setup to utilize both positive and negative trajectories to
autonomously improve each model's specialized capabilities as part of a joint
sequential system. We evaluate our approach across MATH, GSM8k, and CQA, where
MALT on Llama 3.1 8B models achieves relative improvements of 14.14%, 7.12%,
and 9.40% respectively over the same baseline model. This demonstrates an early
advance in multi-agent cooperative capabilities for performance on mathematical
and common sense reasoning questions. More generally, our work provides a
concrete direction for research around multi-agent LLM training approaches.Summary
AI-Generated Summary