MALT: Verbesserung der Schlussfolgerung durch Training von Multi-Agent LLM
MALT: Improving Reasoning with Multi-Agent LLM Training
December 2, 2024
Autoren: Sumeet Ramesh Motwani, Chandler Smith, Rocktim Jyoti Das, Markian Rybchuk, Philip H. S. Torr, Ivan Laptev, Fabio Pizzati, Ronald Clark, Christian Schroeder de Witt
cs.AI
Zusammenfassung
Die Ermöglichung einer effektiven Zusammenarbeit zwischen LLMs ist ein entscheidender Schritt zur Entwicklung autonomer Systeme, die in der Lage sind, komplexe Probleme zu lösen. Während LLMs in der Regel als Generatoren einzelner Modelle verwendet werden, bei denen Menschen ihre Ausgaben kritisieren und verfeinern, bleibt das Potenzial für gemeinsam trainierte kooperative Modelle weitgehend unerforscht. Trotz vielversprechender Ergebnisse in Multi-Agenten-Kommunikations- und Debattensituationen wurde bisher wenig Fortschritt bei der Schulung von Modellen erzielt, die gemeinsam an Aufgaben arbeiten. In diesem Papier präsentieren wir einen ersten Schritt hin zur "Multi-Agenten-LLM-Schulung" (MALT) bei Problemen des logischen Denkens. Unser Ansatz verwendet ein sequentielles Multi-Agenten-Setup mit heterogenen LLMs, die spezialisierte Rollen zugewiesen bekommen: ein Generator, ein Verifizierer und ein Verfeinerungsmodell, die iterativ Probleme lösen. Wir schlagen einen Prozess zur synthetischen Datengenerierung auf Basis von Trajektorienausweitung und eine Zuteilungsstrategie von Krediten vor, die von gemeinsamen ergebnisbasierten Belohnungen gesteuert wird. Dies ermöglicht es unserem Post-Training-Setup, sowohl positive als auch negative Trajektorien zu nutzen, um die spezialisierten Fähigkeiten jedes Modells autonom im Rahmen eines gemeinsamen sequentiellen Systems zu verbessern. Wir evaluieren unseren Ansatz in den Bereichen MATH, GSM8k und CQA, wobei MALT auf Llama 3.1 8B-Modellen relative Verbesserungen von 14,14%, 7,12% bzw. 9,40% gegenüber dem gleichen Basislinienmodell erzielt. Dies zeigt einen frühen Fortschritt bei kooperativen Fähigkeiten von Multi-Agenten zur Leistung bei mathematischen und gesunden Menschenverstand-Logikfragen. Allgemeiner betrachtet bietet unsere Arbeit eine konkrete Richtung für die Forschung im Bereich Multi-Agenten-LLM-Schulungsansätze.
English
Enabling effective collaboration among LLMs is a crucial step toward
developing autonomous systems capable of solving complex problems. While LLMs
are typically used as single-model generators, where humans critique and refine
their outputs, the potential for jointly-trained collaborative models remains
largely unexplored. Despite promising results in multi-agent communication and
debate settings, little progress has been made in training models to work
together on tasks. In this paper, we present a first step toward "Multi-agent
LLM training" (MALT) on reasoning problems. Our approach employs a sequential
multi-agent setup with heterogeneous LLMs assigned specialized roles: a
generator, verifier, and refinement model iteratively solving problems. We
propose a trajectory-expansion-based synthetic data generation process and a
credit assignment strategy driven by joint outcome based rewards. This enables
our post-training setup to utilize both positive and negative trajectories to
autonomously improve each model's specialized capabilities as part of a joint
sequential system. We evaluate our approach across MATH, GSM8k, and CQA, where
MALT on Llama 3.1 8B models achieves relative improvements of 14.14%, 7.12%,
and 9.40% respectively over the same baseline model. This demonstrates an early
advance in multi-agent cooperative capabilities for performance on mathematical
and common sense reasoning questions. More generally, our work provides a
concrete direction for research around multi-agent LLM training approaches.Summary
AI-Generated Summary