Bootstrapping von Sprachmodellen mit DPO Impliziten Belohnungen
Bootstrapping Language Models with DPO Implicit Rewards
June 14, 2024
Autoren: Changyu Chen, Zichen Liu, Chao Du, Tianyu Pang, Qian Liu, Arunesh Sinha, Pradeep Varakantham, Min Lin
cs.AI
Zusammenfassung
Die menschliche Ausrichtung in großen Sprachmodellen (LLMs) ist ein aktiver Forschungsbereich. Ein kürzlich bahnbrechendes Werk, die direkte Präferenzoptimierung (DPO), hat den Prozess im Vergleich zu früheren Arbeiten im Bereich des verstärkenden Lernens aus menschlichem Feedback (RLHF) erheblich vereinfacht, indem es die Belohnungslernphase in RLHF umgeht. DPO stellt nach dem Training ein implizites Belohnungsmodell bereit. In dieser Arbeit machen wir eine neuartige Beobachtung, dass dieses implizite Belohnungsmodell an sich in einer Art von Bootstrapping verwendet werden kann, um das LLM weiter auszurichten. Unser Ansatz besteht darin, die Belohnungen aus einem aktuellen LLM-Modell zu verwenden, um einen Präferenzdatensatz zu erstellen, der dann in nachfolgenden DPO-Runden verwendet wird. Wir integrieren Verfeinerungen, die die Länge der Antworten entzerren und die Qualität des Präferenzdatensatzes verbessern, um unseren Ansatz weiter zu verbessern. Unser Ansatz, benannt Selbstausrichtung mit DPO ImpliCit rEwards (DICE), zeigt große Verbesserungen in der Ausrichtung und erreicht eine überlegene Leistung als Gemini Pro auf AlpacaEval 2, mit einer Längenkontrollgewinnrate von 27,55% gegenüber GPT-4 Turbo, jedoch mit nur 8B Parametern und ohne externes Feedback. Unser Code ist verfügbar unter https://github.com/sail-sg/dice.
English
Human alignment in large language models (LLMs) is an active area of
research. A recent groundbreaking work, direct preference optimization (DPO),
has greatly simplified the process from past work in reinforcement learning
from human feedback (RLHF) by bypassing the reward learning stage in RLHF. DPO,
after training, provides an implicit reward model. In this work, we make a
novel observation that this implicit reward model can by itself be used in a
bootstrapping fashion to further align the LLM. Our approach is to use the
rewards from a current LLM model to construct a preference dataset, which is
then used in subsequent DPO rounds. We incorporate refinements that debias the
length of the responses and improve the quality of the preference dataset to
further improve our approach. Our approach, named self-alignment with DPO
ImpliCit rEwards (DICE), shows great improvements in alignment and achieves
superior performance than Gemini Pro on AlpacaEval 2, reaching 27.55%
length-controlled win rate against GPT-4 Turbo, but with only 8B parameters and
no external feedback. Our code is available at https://github.com/sail-sg/dice.Summary
AI-Generated Summary