MALT: Verbeteren van Redeneren met Training van Multi-Agent LLM
MALT: Improving Reasoning with Multi-Agent LLM Training
December 2, 2024
Auteurs: Sumeet Ramesh Motwani, Chandler Smith, Rocktim Jyoti Das, Markian Rybchuk, Philip H. S. Torr, Ivan Laptev, Fabio Pizzati, Ronald Clark, Christian Schroeder de Witt
cs.AI
Samenvatting
Het mogelijk maken van effectieve samenwerking tussen LLM's is een cruciale stap naar het ontwikkelen van autonome systemen die in staat zijn complexe problemen op te lossen. Hoewel LLM's doorgaans worden gebruikt als generatoren van enkelvoudige modellen, waar mensen hun resultaten beoordelen en verfijnen, blijft het potentieel voor gezamenlijk getrainde samenwerkingsmodellen grotendeels onontgonnen. Ondanks veelbelovende resultaten in multi-agent communicatie- en debatomgevingen, is er weinig vooruitgang geboekt in het trainen van modellen om samen te werken aan taken. In dit artikel presenteren we een eerste stap naar "Multi-agent LLM-training" (MALT) voor redeneervraagstukken. Onze aanpak maakt gebruik van een sequentiële multi-agent opstelling met heterogene LLM's die gespecialiseerde rollen krijgen toegewezen: een generator, verifier en verfijningsmodel die iteratief problemen oplossen. We stellen een synthetisch datageneratieproces voor op basis van trajectuitbreiding en een credittoewijzingsstrategie die wordt gestuurd door beloningen op basis van gezamenlijke uitkomsten. Dit stelt onze post-training opstelling in staat om zowel positieve als negatieve trajecten te benutten om autonoom de gespecialiseerde mogelijkheden van elk model te verbeteren als onderdeel van een gezamenlijk sequentieel systeem. We evalueren onze aanpak over MATH, GSM8k en CQA, waar MALT op Llama 3.1 8B-modellen relatieve verbeteringen van respectievelijk 14,14%, 7,12% en 9,40% behaalt ten opzichte van hetzelfde basismodel. Dit toont een vroege vooruitgang in de coöperatieve mogelijkheden van multi-agenten voor prestaties op wiskundige en gezond verstand redeneervragen. Meer in het algemeen biedt ons werk een concrete richting voor onderzoek naar benaderingen voor multi-agent LLM-training.
English
Enabling effective collaboration among LLMs is a crucial step toward
developing autonomous systems capable of solving complex problems. While LLMs
are typically used as single-model generators, where humans critique and refine
their outputs, the potential for jointly-trained collaborative models remains
largely unexplored. Despite promising results in multi-agent communication and
debate settings, little progress has been made in training models to work
together on tasks. In this paper, we present a first step toward "Multi-agent
LLM training" (MALT) on reasoning problems. Our approach employs a sequential
multi-agent setup with heterogeneous LLMs assigned specialized roles: a
generator, verifier, and refinement model iteratively solving problems. We
propose a trajectory-expansion-based synthetic data generation process and a
credit assignment strategy driven by joint outcome based rewards. This enables
our post-training setup to utilize both positive and negative trajectories to
autonomously improve each model's specialized capabilities as part of a joint
sequential system. We evaluate our approach across MATH, GSM8k, and CQA, where
MALT on Llama 3.1 8B models achieves relative improvements of 14.14%, 7.12%,
and 9.40% respectively over the same baseline model. This demonstrates an early
advance in multi-agent cooperative capabilities for performance on mathematical
and common sense reasoning questions. More generally, our work provides a
concrete direction for research around multi-agent LLM training approaches.