ChatPaper.aiChatPaper

MALT: Mejorando el Razonamiento con el Entrenamiento de LLM Multiagente

MALT: Improving Reasoning with Multi-Agent LLM Training

December 2, 2024
Autores: Sumeet Ramesh Motwani, Chandler Smith, Rocktim Jyoti Das, Markian Rybchuk, Philip H. S. Torr, Ivan Laptev, Fabio Pizzati, Ronald Clark, Christian Schroeder de Witt
cs.AI

Resumen

Facilitar la colaboración efectiva entre LLMs es un paso crucial hacia el desarrollo de sistemas autónomos capaces de resolver problemas complejos. Si bien los LLMs suelen utilizarse como generadores de modelos individuales, donde los humanos critican y refinan sus salidas, el potencial de modelos colaborativos entrenados conjuntamente sigue siendo en gran medida inexplorado. A pesar de los resultados prometedores en entornos de comunicación y debate multiagente, se ha avanzado poco en el entrenamiento de modelos para trabajar juntos en tareas. En este documento, presentamos un primer paso hacia el "Entrenamiento multiagente de LLM" (MALT) en problemas de razonamiento. Nuestro enfoque emplea una configuración secuencial multiagente con LLMs heterogéneos asignados a roles especializados: un generador, un verificador y un modelo de refinamiento resolviendo problemas de forma iterativa. Proponemos un proceso de generación de datos sintéticos basado en la expansión de trayectorias y una estrategia de asignación de créditos impulsada por recompensas basadas en resultados conjuntos. Esto permite que nuestra configuración posterior al entrenamiento utilice tanto trayectorias positivas como negativas para mejorar autónomamente las capacidades especializadas de cada modelo como parte de un sistema secuencial conjunto. Evaluamos nuestro enfoque en MATH, GSM8k y CQA, donde MALT en modelos Llama 3.1 8B logra mejoras relativas del 14.14%, 7.12% y 9.40% respectivamente sobre el mismo modelo base. Esto demuestra un avance temprano en capacidades cooperativas multiagente para el rendimiento en preguntas de razonamiento matemático y de sentido común. En general, nuestro trabajo proporciona una dirección concreta para la investigación en torno a enfoques de entrenamiento de LLM multiagente.
English
Enabling effective collaboration among LLMs is a crucial step toward developing autonomous systems capable of solving complex problems. While LLMs are typically used as single-model generators, where humans critique and refine their outputs, the potential for jointly-trained collaborative models remains largely unexplored. Despite promising results in multi-agent communication and debate settings, little progress has been made in training models to work together on tasks. In this paper, we present a first step toward "Multi-agent LLM training" (MALT) on reasoning problems. Our approach employs a sequential multi-agent setup with heterogeneous LLMs assigned specialized roles: a generator, verifier, and refinement model iteratively solving problems. We propose a trajectory-expansion-based synthetic data generation process and a credit assignment strategy driven by joint outcome based rewards. This enables our post-training setup to utilize both positive and negative trajectories to autonomously improve each model's specialized capabilities as part of a joint sequential system. We evaluate our approach across MATH, GSM8k, and CQA, where MALT on Llama 3.1 8B models achieves relative improvements of 14.14%, 7.12%, and 9.40% respectively over the same baseline model. This demonstrates an early advance in multi-agent cooperative capabilities for performance on mathematical and common sense reasoning questions. More generally, our work provides a concrete direction for research around multi-agent LLM training approaches.

Summary

AI-Generated Summary

PDF453December 4, 2024