MALT: Verbesserung der Schlussfolgerung durch Training von Multi-Agent LLM

papers.abstract

Die Ermöglichung einer effektiven Zusammenarbeit zwischen LLMs ist ein entscheidender Schritt zur Entwicklung autonomer Systeme, die in der Lage sind, komplexe Probleme zu lösen. Während LLMs in der Regel als Generatoren einzelner Modelle verwendet werden, bei denen Menschen ihre Ausgaben kritisieren und verfeinern, bleibt das Potenzial für gemeinsam trainierte kooperative Modelle weitgehend unerforscht. Trotz vielversprechender Ergebnisse in Multi-Agenten-Kommunikations- und Debattensituationen wurde bisher wenig Fortschritt bei der Schulung von Modellen erzielt, die gemeinsam an Aufgaben arbeiten. In diesem Papier präsentieren wir einen ersten Schritt hin zur "Multi-Agenten-LLM-Schulung" (MALT) bei Problemen des logischen Denkens. Unser Ansatz verwendet ein sequentielles Multi-Agenten-Setup mit heterogenen LLMs, die spezialisierte Rollen zugewiesen bekommen: ein Generator, ein Verifizierer und ein Verfeinerungsmodell, die iterativ Probleme lösen. Wir schlagen einen Prozess zur synthetischen Datengenerierung auf Basis von Trajektorienausweitung und eine Zuteilungsstrategie von Krediten vor, die von gemeinsamen ergebnisbasierten Belohnungen gesteuert wird. Dies ermöglicht es unserem Post-Training-Setup, sowohl positive als auch negative Trajektorien zu nutzen, um die spezialisierten Fähigkeiten jedes Modells autonom im Rahmen eines gemeinsamen sequentiellen Systems zu verbessern. Wir evaluieren unseren Ansatz in den Bereichen MATH, GSM8k und CQA, wobei MALT auf Llama 3.1 8B-Modellen relative Verbesserungen von 14,14%, 7,12% bzw. 9,40% gegenüber dem gleichen Basislinienmodell erzielt. Dies zeigt einen frühen Fortschritt bei kooperativen Fähigkeiten von Multi-Agenten zur Leistung bei mathematischen und gesunden Menschenverstand-Logikfragen. Allgemeiner betrachtet bietet unsere Arbeit eine konkrete Richtung für die Forschung im Bereich Multi-Agenten-LLM-Schulungsansätze.

English

Enabling effective collaboration among LLMs is a crucial step toward developing autonomous systems capable of solving complex problems. While LLMs are typically used as single-model generators, where humans critique and refine their outputs, the potential for jointly-trained collaborative models remains largely unexplored. Despite promising results in multi-agent communication and debate settings, little progress has been made in training models to work together on tasks. In this paper, we present a first step toward "Multi-agent LLM training" (MALT) on reasoning problems. Our approach employs a sequential multi-agent setup with heterogeneous LLMs assigned specialized roles: a generator, verifier, and refinement model iteratively solving problems. We propose a trajectory-expansion-based synthetic data generation process and a credit assignment strategy driven by joint outcome based rewards. This enables our post-training setup to utilize both positive and negative trajectories to autonomously improve each model's specialized capabilities as part of a joint sequential system. We evaluate our approach across MATH, GSM8k, and CQA, where MALT on Llama 3.1 8B models achieves relative improvements of 14.14%, 7.12%, and 9.40% respectively over the same baseline model. This demonstrates an early advance in multi-agent cooperative capabilities for performance on mathematical and common sense reasoning questions. More generally, our work provides a concrete direction for research around multi-agent LLM training approaches.

MALT: Verbesserung der Schlussfolgerung durch Training von Multi-Agent LLM

MALT: Improving Reasoning with Multi-Agent LLM Training

papers.abstract

Support