Selbsttraining mit direkter Präferenzoptimierung verbessert das Denken in Gedankengängen.
Self-Training with Direct Preference Optimization Improves Chain-of-Thought Reasoning
July 25, 2024
Autoren: Tianduo Wang, Shichen Li, Wei Lu
cs.AI
Zusammenfassung
Die effektive Schulung von Sprachmodellen (LMs) für mathematische Denkaufgaben erfordert hochwertige überwachte Feinabstimmungsdaten. Neben der Beschaffung von Annotationen von menschlichen Experten ist eine häufige Alternative das Samplen von größeren und leistungsstärkeren LMs. Allerdings kann dieser Ansatz des Wissensabgleichs kostspielig und instabil sein, insbesondere wenn man sich auf geschlossene, proprietäre LMs wie GPT-4 verlässt, deren Verhalten oft unvorhersehbar ist. In dieser Arbeit zeigen wir, dass die Denkfähigkeiten von LMs im kleinen Maßstab durch Selbstschulung verbessert werden können, einem Prozess, bei dem Modelle von ihren eigenen Ausgaben lernen. Wir zeigen auch, dass die herkömmliche Selbstschulung durch einen Präferenzlernalgorithmus namens Direkte Präferenzoptimierung (DPO) weiter verbessert werden kann. Durch die Integration von DPO in die Selbstschulung nutzen wir Präferenzdaten, um LMs zu einer präziseren und vielfältigeren Ketten-Denkbegründung zu führen. Wir evaluieren unsere Methode über verschiedene mathematische Denkaufgaben hinweg unter Verwendung verschiedener Basismodelle. Unsere Experimente zeigen, dass dieser Ansatz nicht nur die Denkleistung von LMs verbessert, sondern auch eine kostengünstigere und skalierbarere Lösung im Vergleich zur Abhängigkeit von großen proprietären LMs bietet.
English
Effective training of language models (LMs) for mathematical reasoning tasks
demands high-quality supervised fine-tuning data. Besides obtaining annotations
from human experts, a common alternative is sampling from larger and more
powerful LMs. However, this knowledge distillation approach can be costly and
unstable, particularly when relying on closed-source, proprietary LMs like
GPT-4, whose behaviors are often unpredictable. In this work, we demonstrate
that the reasoning abilities of small-scale LMs can be enhanced through
self-training, a process where models learn from their own outputs. We also
show that the conventional self-training can be further augmented by a
preference learning algorithm called Direct Preference Optimization (DPO). By
integrating DPO into self-training, we leverage preference data to guide LMs
towards more accurate and diverse chain-of-thought reasoning. We evaluate our
method across various mathematical reasoning tasks using different base models.
Our experiments show that this approach not only improves LMs' reasoning
performance but also offers a more cost-effective and scalable solution
compared to relying on large proprietary LMs.Summary
AI-Generated Summary