Iteratives Schlussfolgern zur Präferenzoptimierung
Iterative Reasoning Preference Optimization
April 30, 2024
Autoren: Richard Yuanzhe Pang, Weizhe Yuan, Kyunghyun Cho, He He, Sainbayar Sukhbaatar, Jason Weston
cs.AI
Zusammenfassung
Iterative Präferenzoptimierungsmethoden haben kürzlich gezeigt, dass sie gut für allgemeine Anpassungsaufgaben geeignet sind, machen jedoch in der Regel nur geringe Verbesserungen bei Denkaufgaben (Yuan et al., 2024, Chen et al., 2024). In dieser Arbeit entwickeln wir einen iterativen Ansatz, der die Präferenz zwischen konkurrierenden generierten Chain-of-Thought (CoT)-Kandidaten optimiert, indem er auf gewinnende vs. verlierende Denkschritte optimiert, die zur richtigen Antwort führen. Wir trainieren mit einem modifizierten DPO-Verlust (Rafailov et al., 2023) mit einem zusätzlichen negativen Log-Likelihood-Term, den wir als entscheidend erachten. Wir zeigen, dass das Denken über wiederholte Iterationen dieses Schemas verbessert wird. Obwohl wir nur auf Beispiele im Trainingssatz angewiesen sind, führt unser Ansatz zu einer zunehmenden Genauigkeit für Llama-2-70B-Chat von 55,6% auf 81,6% auf GSM8K (und 88,7% bei Mehrheitsabstimmung aus 32 Proben), von 12,5% auf 20,8% bei MATH und von 77,8% auf 86,7% bei ARC-Challenge, was andere auf Llama-2 basierende Modelle übertrifft, die nicht auf zusätzlich beschaffte Datensätze angewiesen sind.
English
Iterative preference optimization methods have recently been shown to perform
well for general instruction tuning tasks, but typically make little
improvement on reasoning tasks (Yuan et al., 2024, Chen et al., 2024). In this
work we develop an iterative approach that optimizes the preference between
competing generated Chain-of-Thought (CoT) candidates by optimizing for winning
vs. losing reasoning steps that lead to the correct answer. We train using a
modified DPO loss (Rafailov et al., 2023) with an additional negative
log-likelihood term, which we find to be crucial. We show reasoning improves
across repeated iterations of this scheme. While only relying on examples in
the training set, our approach results in increasing accuracy for
Llama-2-70B-Chat from 55.6% to 81.6% on GSM8K (and 88.7% with majority voting
out of 32 samples), from 12.5% to 20.8% on MATH, and from 77.8% to 86.7% on
ARC-Challenge, which outperforms other Llama-2-based models not relying on
additionally sourced datasets.Summary
AI-Generated Summary