Flow-DPO: Mejorando el Razonamiento Matemático de LLM a través del Aprendizaje Multiagente en Línea
Flow-DPO: Improving LLM Mathematical Reasoning through Online Multi-Agent Learning
October 29, 2024
Autores: Yihe Deng, Paul Mineiro
cs.AI
Resumen
El razonamiento matemático es una capacidad crucial para los Modelos de Lenguaje de Gran Tamaño (LLMs), sin embargo, generar trazas de razonamiento detalladas y precisas sigue siendo un desafío significativo. Este artículo introduce un enfoque novedoso para producir trazas de razonamiento de alta calidad para el ajuste fino de LLM utilizando Flujos de aprendizaje en línea. Nuestro método emplea un Flujo de producción de salida incremental, donde los LLMs componentes construyen soluciones de forma colaborativa a través de comunicación iterativa. Entrenamos el Flujo utilizando aprendizaje en línea de Optimización de Preferencia Directa (DPO) con despliegues, generando pares DPO para cada ejemplo de entrenamiento y actualizando modelos en tiempo real. Comparamos directamente la calidad de las trazas de razonamiento generadas por nuestro método con aquellas producidas a través de inferencia directa de modelos, demostrando la efectividad de nuestro enfoque en mejorar el rendimiento de LLM en tareas de razonamiento matemático.
English
Mathematical reasoning is a crucial capability for Large Language Models
(LLMs), yet generating detailed and accurate reasoning traces remains a
significant challenge. This paper introduces a novel approach to produce
high-quality reasoning traces for LLM fine-tuning using online learning
Flows. Our method employs an incremental output production Flow, where
component LLMs collaboratively construct solutions through iterative
communication. We train the Flow using online Direct Preference Optimization
(DPO) learning with rollouts, generating DPO pairs for each training example
and updating models in real-time. We directly compare the quality of reasoning
traces generated by our method with those produced through direct model
inference, demonstrating the effectiveness of our approach in improving LLM
performance in mathematical reasoning tasks.Summary
AI-Generated Summary