MALT: Улучшение рассуждений с помощью обучения многозадачной модели языка.
MALT: Improving Reasoning with Multi-Agent LLM Training
December 2, 2024
Авторы: Sumeet Ramesh Motwani, Chandler Smith, Rocktim Jyoti Das, Markian Rybchuk, Philip H. S. Torr, Ivan Laptev, Fabio Pizzati, Ronald Clark, Christian Schroeder de Witt
cs.AI
Аннотация
Обеспечение эффективного взаимодействия между LLM является ключевым шагом к развитию автономных систем, способных решать сложные задачи. Хотя LLM обычно используются как генераторы одиночных моделей, где люди критикуют и улучшают их результаты, потенциал совместного обучения коллективных моделей остается в значительной степени не исследованным. Несмотря на обнадеживающие результаты в многоагентных коммуникационных и дебатных средах, мало прогресса было достигнуто в обучении моделей работать вместе над задачами. В данной статье мы представляем первый шаг к "Многоагентному обучению LLM" (MALT) на задачах рассуждения. Наш подход использует последовательную многоагентную конфигурацию с гетерогенными LLM, назначенными специализированные роли: генератор, верификатор и модель уточнения итеративно решают проблемы. Мы предлагаем процесс генерации синтетических данных на основе расширения траектории и стратегию оценки кредита, основанную на совместных наградах за результат. Это позволяет нашей пост-тренировочной конфигурации использовать как положительные, так и отрицательные траектории для автономного улучшения специализированных возможностей каждой модели в рамках совместной последовательной системы. Мы оцениваем наш подход на наборах данных MATH, GSM8k и CQA, где MALT на моделях Llama 3.1 8B достигает относительного улучшения на 14.14%, 7.12% и 9.40% соответственно по сравнению с одной и той же базовой моделью. Это демонстрирует раннее развитие в возможностях многоагентного сотрудничества для производительности на математических и вопросах здравого смысла. Более обще, наша работа предоставляет конкретное направление для исследований в области подходов к многоагентному обучению LLM.
English
Enabling effective collaboration among LLMs is a crucial step toward
developing autonomous systems capable of solving complex problems. While LLMs
are typically used as single-model generators, where humans critique and refine
their outputs, the potential for jointly-trained collaborative models remains
largely unexplored. Despite promising results in multi-agent communication and
debate settings, little progress has been made in training models to work
together on tasks. In this paper, we present a first step toward "Multi-agent
LLM training" (MALT) on reasoning problems. Our approach employs a sequential
multi-agent setup with heterogeneous LLMs assigned specialized roles: a
generator, verifier, and refinement model iteratively solving problems. We
propose a trajectory-expansion-based synthetic data generation process and a
credit assignment strategy driven by joint outcome based rewards. This enables
our post-training setup to utilize both positive and negative trajectories to
autonomously improve each model's specialized capabilities as part of a joint
sequential system. We evaluate our approach across MATH, GSM8k, and CQA, where
MALT on Llama 3.1 8B models achieves relative improvements of 14.14%, 7.12%,
and 9.40% respectively over the same baseline model. This demonstrates an early
advance in multi-agent cooperative capabilities for performance on mathematical
and common sense reasoning questions. More generally, our work provides a
concrete direction for research around multi-agent LLM training approaches.Summary
AI-Generated Summary