ChatPaper.aiChatPaper

MALT : Amélioration du raisonnement avec l'entraînement multi-agent de LLM

MALT: Improving Reasoning with Multi-Agent LLM Training

December 2, 2024
Auteurs: Sumeet Ramesh Motwani, Chandler Smith, Rocktim Jyoti Das, Markian Rybchuk, Philip H. S. Torr, Ivan Laptev, Fabio Pizzati, Ronald Clark, Christian Schroeder de Witt
cs.AI

Résumé

Permettre une collaboration efficace entre les LLM est une étape cruciale vers le développement de systèmes autonomes capables de résoudre des problèmes complexes. Alors que les LLM sont généralement utilisés comme générateurs de modèles uniques, où les humains critiquent et affinent leurs résultats, le potentiel de modèles collaboratifs entraînés conjointement reste largement inexploré. Malgré des résultats prometteurs dans les paramètres de communication multi-agent et de débat, peu de progrès ont été réalisés dans la formation de modèles travaillant ensemble sur des tâches. Dans cet article, nous présentons un premier pas vers l'entraînement "Multi-agent LLM" (MALT) sur des problèmes de raisonnement. Notre approche utilise une configuration multi-agent séquentielle avec des LLM hétérogènes affectés à des rôles spécialisés : un générateur, un vérificateur et un modèle de raffinement résolvant de manière itérative des problèmes. Nous proposons un processus de génération de données synthétiques basé sur l'expansion de trajectoire et une stratégie d'attribution de crédit basée sur des récompenses conjointes basées sur les résultats. Cela permet à notre configuration post-entraînement d'utiliser à la fois des trajectoires positives et négatives pour améliorer de manière autonome les capacités spécialisées de chaque modèle dans le cadre d'un système séquentiel conjoint. Nous évaluons notre approche sur MATH, GSM8k et CQA, où MALT sur les modèles Llama 3.1 8B obtient des améliorations relatives de 14,14 %, 7,12 % et 9,40 % respectivement par rapport au même modèle de référence. Cela démontre une avancée précoce dans les capacités coopératives multi-agent pour la performance sur des questions de raisonnement mathématique et de bon sens. Plus généralement, notre travail offre une direction concrète pour la recherche autour des approches d'entraînement de LLM multi-agents.
English
Enabling effective collaboration among LLMs is a crucial step toward developing autonomous systems capable of solving complex problems. While LLMs are typically used as single-model generators, where humans critique and refine their outputs, the potential for jointly-trained collaborative models remains largely unexplored. Despite promising results in multi-agent communication and debate settings, little progress has been made in training models to work together on tasks. In this paper, we present a first step toward "Multi-agent LLM training" (MALT) on reasoning problems. Our approach employs a sequential multi-agent setup with heterogeneous LLMs assigned specialized roles: a generator, verifier, and refinement model iteratively solving problems. We propose a trajectory-expansion-based synthetic data generation process and a credit assignment strategy driven by joint outcome based rewards. This enables our post-training setup to utilize both positive and negative trajectories to autonomously improve each model's specialized capabilities as part of a joint sequential system. We evaluate our approach across MATH, GSM8k, and CQA, where MALT on Llama 3.1 8B models achieves relative improvements of 14.14%, 7.12%, and 9.40% respectively over the same baseline model. This demonstrates an early advance in multi-agent cooperative capabilities for performance on mathematical and common sense reasoning questions. More generally, our work provides a concrete direction for research around multi-agent LLM training approaches.

Summary

AI-Generated Summary

PDF453December 4, 2024