ChatPaper.aiChatPaper

Zelf-training met Direct Preference Optimization verbetert Chain-of-Thought Redeneren

Self-Training with Direct Preference Optimization Improves Chain-of-Thought Reasoning

July 25, 2024
Auteurs: Tianduo Wang, Shichen Li, Wei Lu
cs.AI

Samenvatting

Effectieve training van taalmodel(len) (LMs) voor wiskundige redeneertaken vereist hoogwaardige gegevens voor supervised fine-tuning. Naast het verkrijgen van annotaties van menselijke experts, is een veelgebruikt alternatief het bemonsteren van grotere en krachtigere LMs. Deze kennisdistillatiebenadering kan echter kostbaar en instabiel zijn, vooral wanneer wordt vertrouwd op closed-source, propriëtaire LMs zoals GPT-4, waarvan het gedrag vaak onvoorspelbaar is. In dit werk tonen we aan dat de redeneervaardigheden van kleinschalige LMs kunnen worden verbeterd door middel van zelf-training, een proces waarbij modellen leren van hun eigen uitvoer. We laten ook zien dat de conventionele zelftraining verder kan worden versterkt door een voorkeursleeralgoritme genaamd Direct Preference Optimization (DPO). Door DPO te integreren in zelftraining, benutten we voorkeursgegevens om LMs te begeleiden naar nauwkeurigere en diversere keten-van-gedachtenredeneringen. We evalueren onze methode voor verschillende wiskundige redeneertaken met behulp van verschillende basismodellen. Onze experimenten tonen aan dat deze aanpak niet alleen de redeneerprestaties van LMs verbetert, maar ook een kosteneffectievere en schaalbare oplossing biedt in vergelijking met het vertrouwen op grote propriëtaire LMs.
English
Effective training of language models (LMs) for mathematical reasoning tasks demands high-quality supervised fine-tuning data. Besides obtaining annotations from human experts, a common alternative is sampling from larger and more powerful LMs. However, this knowledge distillation approach can be costly and unstable, particularly when relying on closed-source, proprietary LMs like GPT-4, whose behaviors are often unpredictable. In this work, we demonstrate that the reasoning abilities of small-scale LMs can be enhanced through self-training, a process where models learn from their own outputs. We also show that the conventional self-training can be further augmented by a preference learning algorithm called Direct Preference Optimization (DPO). By integrating DPO into self-training, we leverage preference data to guide LMs towards more accurate and diverse chain-of-thought reasoning. We evaluate our method across various mathematical reasoning tasks using different base models. Our experiments show that this approach not only improves LMs' reasoning performance but also offers a more cost-effective and scalable solution compared to relying on large proprietary LMs.
PDF334February 8, 2026