ChatPaper.aiChatPaper

Fluxo-DPO: Melhorando o Raciocínio Matemático do LLM através do Aprendizado Multiagente Online

Flow-DPO: Improving LLM Mathematical Reasoning through Online Multi-Agent Learning

October 29, 2024
Autores: Yihe Deng, Paul Mineiro
cs.AI

Resumo

O raciocínio matemático é uma capacidade crucial para Modelos de Linguagem de Grande Escala (LLMs), no entanto, gerar traços de raciocínio detalhados e precisos continua sendo um desafio significativo. Este artigo apresenta uma abordagem inovadora para produzir traços de raciocínio de alta qualidade para o ajuste fino de LLMs usando Fluxos de aprendizado online. Nosso método emprega um Fluxo de produção de saída incremental, onde LLMs componentes constroem soluções colaborativamente por meio de comunicação iterativa. Treinamos o Fluxo usando aprendizado online de Otimização de Preferência Direta (DPO) com simulações, gerando pares DPO para cada exemplo de treinamento e atualizando os modelos em tempo real. Comparamos diretamente a qualidade dos traços de raciocínio gerados por nosso método com aqueles produzidos por inferência direta do modelo, demonstrando a eficácia de nossa abordagem em melhorar o desempenho de LLMs em tarefas de raciocínio matemático.
English
Mathematical reasoning is a crucial capability for Large Language Models (LLMs), yet generating detailed and accurate reasoning traces remains a significant challenge. This paper introduces a novel approach to produce high-quality reasoning traces for LLM fine-tuning using online learning Flows. Our method employs an incremental output production Flow, where component LLMs collaboratively construct solutions through iterative communication. We train the Flow using online Direct Preference Optimization (DPO) learning with rollouts, generating DPO pairs for each training example and updating models in real-time. We directly compare the quality of reasoning traces generated by our method with those produced through direct model inference, demonstrating the effectiveness of our approach in improving LLM performance in mathematical reasoning tasks.

Summary

AI-Generated Summary

PDF182November 16, 2024