Selbsttraining mit direkter Präferenzoptimierung verbessert das Denken in Gedankengängen.

papers.abstract

Die effektive Schulung von Sprachmodellen (LMs) für mathematische Denkaufgaben erfordert hochwertige überwachte Feinabstimmungsdaten. Neben der Beschaffung von Annotationen von menschlichen Experten ist eine häufige Alternative das Samplen von größeren und leistungsstärkeren LMs. Allerdings kann dieser Ansatz des Wissensabgleichs kostspielig und instabil sein, insbesondere wenn man sich auf geschlossene, proprietäre LMs wie GPT-4 verlässt, deren Verhalten oft unvorhersehbar ist. In dieser Arbeit zeigen wir, dass die Denkfähigkeiten von LMs im kleinen Maßstab durch Selbstschulung verbessert werden können, einem Prozess, bei dem Modelle von ihren eigenen Ausgaben lernen. Wir zeigen auch, dass die herkömmliche Selbstschulung durch einen Präferenzlernalgorithmus namens Direkte Präferenzoptimierung (DPO) weiter verbessert werden kann. Durch die Integration von DPO in die Selbstschulung nutzen wir Präferenzdaten, um LMs zu einer präziseren und vielfältigeren Ketten-Denkbegründung zu führen. Wir evaluieren unsere Methode über verschiedene mathematische Denkaufgaben hinweg unter Verwendung verschiedener Basismodelle. Unsere Experimente zeigen, dass dieser Ansatz nicht nur die Denkleistung von LMs verbessert, sondern auch eine kostengünstigere und skalierbarere Lösung im Vergleich zur Abhängigkeit von großen proprietären LMs bietet.

English

Effective training of language models (LMs) for mathematical reasoning tasks demands high-quality supervised fine-tuning data. Besides obtaining annotations from human experts, a common alternative is sampling from larger and more powerful LMs. However, this knowledge distillation approach can be costly and unstable, particularly when relying on closed-source, proprietary LMs like GPT-4, whose behaviors are often unpredictable. In this work, we demonstrate that the reasoning abilities of small-scale LMs can be enhanced through self-training, a process where models learn from their own outputs. We also show that the conventional self-training can be further augmented by a preference learning algorithm called Direct Preference Optimization (DPO). By integrating DPO into self-training, we leverage preference data to guide LMs towards more accurate and diverse chain-of-thought reasoning. We evaluate our method across various mathematical reasoning tasks using different base models. Our experiments show that this approach not only improves LMs' reasoning performance but also offers a more cost-effective and scalable solution compared to relying on large proprietary LMs.

Selbsttraining mit direkter Präferenzoptimierung verbessert das Denken in Gedankengängen.

Self-Training with Direct Preference Optimization Improves Chain-of-Thought Reasoning

papers.abstract

Support