L'auto-addestramento con l'ottimizzazione diretta delle preferenze migliora il ragionamento a catena di pensiero.
Self-Training with Direct Preference Optimization Improves Chain-of-Thought Reasoning
July 25, 2024
Autori: Tianduo Wang, Shichen Li, Wei Lu
cs.AI
Abstract
L'addestramento efficace di modelli linguistici (LM) per compiti di ragionamento matematico richiede dati di fine-tuning supervisionati di alta qualità. Oltre all'ottenimento di annotazioni da esperti umani, un'alternativa comune è il campionamento da LM più grandi e potenti. Tuttavia, questo approccio di distillazione della conoscenza può essere costoso e instabile, specialmente quando si fa affidamento su LM proprietari e chiusi come GPT-4, i cui comportamenti sono spesso imprevedibili. In questo lavoro, dimostriamo che le capacità di ragionamento di LM su piccola scala possono essere potenziate attraverso l'auto-addestramento, un processo in cui i modelli apprendono dai propri output. Mostriamo inoltre che il convenzionale auto-addestramento può essere ulteriormente migliorato da un algoritmo di apprendimento delle preferenze chiamato Direct Preference Optimization (DPO). Integrando il DPO nell'auto-addestramento, sfruttiamo i dati di preferenza per guidare i LM verso un ragionamento a catena di pensiero più accurato e diversificato. Valutiamo il nostro metodo su vari compiti di ragionamento matematico utilizzando diversi modelli di base. I nostri esperimenti dimostrano che questo approccio non solo migliora le prestazioni di ragionamento dei LM, ma offre anche una soluzione più economica e scalabile rispetto all'affidamento a grandi LM proprietari.
English
Effective training of language models (LMs) for mathematical reasoning tasks
demands high-quality supervised fine-tuning data. Besides obtaining annotations
from human experts, a common alternative is sampling from larger and more
powerful LMs. However, this knowledge distillation approach can be costly and
unstable, particularly when relying on closed-source, proprietary LMs like
GPT-4, whose behaviors are often unpredictable. In this work, we demonstrate
that the reasoning abilities of small-scale LMs can be enhanced through
self-training, a process where models learn from their own outputs. We also
show that the conventional self-training can be further augmented by a
preference learning algorithm called Direct Preference Optimization (DPO). By
integrating DPO into self-training, we leverage preference data to guide LMs
towards more accurate and diverse chain-of-thought reasoning. We evaluate our
method across various mathematical reasoning tasks using different base models.
Our experiments show that this approach not only improves LMs' reasoning
performance but also offers a more cost-effective and scalable solution
compared to relying on large proprietary LMs.