O Auto-treinamento com Otimização Direta de Preferências Melhora o Raciocínio em Cadeia de Pensamento.
Self-Training with Direct Preference Optimization Improves Chain-of-Thought Reasoning
July 25, 2024
Autores: Tianduo Wang, Shichen Li, Wei Lu
cs.AI
Resumo
A eficaz formação de modelos de linguagem (LMs) para tarefas de raciocínio matemático exige dados de ajuste fino supervisionado de alta qualidade. Além de obter anotações de especialistas humanos, uma alternativa comum é a amostragem de LMs maiores e mais poderosos. No entanto, essa abordagem de destilação de conhecimento pode ser cara e instável, especialmente ao depender de LMs proprietários e de código fechado, como o GPT-4, cujos comportamentos frequentemente são imprevisíveis. Neste trabalho, demonstramos que as habilidades de raciocínio de LMs em pequena escala podem ser aprimoradas por meio do autoaprendizado, um processo no qual os modelos aprendem a partir de suas próprias saídas. Também mostramos que o autoaprendizado convencional pode ser ainda mais aprimorado por um algoritmo de aprendizado de preferência chamado Otimização Direta de Preferência (DPO). Ao integrar o DPO ao autoaprendizado, utilizamos dados de preferência para orientar os LMs em direção a um raciocínio mais preciso e diversificado. Avaliamos nosso método em diversas tarefas de raciocínio matemático usando diferentes modelos base. Nossos experimentos mostram que essa abordagem não apenas melhora o desempenho de raciocínio dos LMs, mas também oferece uma solução mais econômica e escalável em comparação com a dependência de LMs proprietários em grande escala.
English
Effective training of language models (LMs) for mathematical reasoning tasks
demands high-quality supervised fine-tuning data. Besides obtaining annotations
from human experts, a common alternative is sampling from larger and more
powerful LMs. However, this knowledge distillation approach can be costly and
unstable, particularly when relying on closed-source, proprietary LMs like
GPT-4, whose behaviors are often unpredictable. In this work, we demonstrate
that the reasoning abilities of small-scale LMs can be enhanced through
self-training, a process where models learn from their own outputs. We also
show that the conventional self-training can be further augmented by a
preference learning algorithm called Direct Preference Optimization (DPO). By
integrating DPO into self-training, we leverage preference data to guide LMs
towards more accurate and diverse chain-of-thought reasoning. We evaluate our
method across various mathematical reasoning tasks using different base models.
Our experiments show that this approach not only improves LMs' reasoning
performance but also offers a more cost-effective and scalable solution
compared to relying on large proprietary LMs.Summary
AI-Generated Summary