ChatPaper.aiChatPaper

Bootstrapping von Sprachmodellen mit DPO Impliziten Belohnungen

Bootstrapping Language Models with DPO Implicit Rewards

June 14, 2024
Autoren: Changyu Chen, Zichen Liu, Chao Du, Tianyu Pang, Qian Liu, Arunesh Sinha, Pradeep Varakantham, Min Lin
cs.AI

Zusammenfassung

Die menschliche Ausrichtung in großen Sprachmodellen (LLMs) ist ein aktiver Forschungsbereich. Ein kürzlich bahnbrechendes Werk, die direkte Präferenzoptimierung (DPO), hat den Prozess im Vergleich zu früheren Arbeiten im Bereich des verstärkenden Lernens aus menschlichem Feedback (RLHF) erheblich vereinfacht, indem es die Belohnungslernphase in RLHF umgeht. DPO stellt nach dem Training ein implizites Belohnungsmodell bereit. In dieser Arbeit machen wir eine neuartige Beobachtung, dass dieses implizite Belohnungsmodell an sich in einer Art von Bootstrapping verwendet werden kann, um das LLM weiter auszurichten. Unser Ansatz besteht darin, die Belohnungen aus einem aktuellen LLM-Modell zu verwenden, um einen Präferenzdatensatz zu erstellen, der dann in nachfolgenden DPO-Runden verwendet wird. Wir integrieren Verfeinerungen, die die Länge der Antworten entzerren und die Qualität des Präferenzdatensatzes verbessern, um unseren Ansatz weiter zu verbessern. Unser Ansatz, benannt Selbstausrichtung mit DPO ImpliCit rEwards (DICE), zeigt große Verbesserungen in der Ausrichtung und erreicht eine überlegene Leistung als Gemini Pro auf AlpacaEval 2, mit einer Längenkontrollgewinnrate von 27,55% gegenüber GPT-4 Turbo, jedoch mit nur 8B Parametern und ohne externes Feedback. Unser Code ist verfügbar unter https://github.com/sail-sg/dice.
English
Human alignment in large language models (LLMs) is an active area of research. A recent groundbreaking work, direct preference optimization (DPO), has greatly simplified the process from past work in reinforcement learning from human feedback (RLHF) by bypassing the reward learning stage in RLHF. DPO, after training, provides an implicit reward model. In this work, we make a novel observation that this implicit reward model can by itself be used in a bootstrapping fashion to further align the LLM. Our approach is to use the rewards from a current LLM model to construct a preference dataset, which is then used in subsequent DPO rounds. We incorporate refinements that debias the length of the responses and improve the quality of the preference dataset to further improve our approach. Our approach, named self-alignment with DPO ImpliCit rEwards (DICE), shows great improvements in alignment and achieves superior performance than Gemini Pro on AlpacaEval 2, reaching 27.55% length-controlled win rate against GPT-4 Turbo, but with only 8B parameters and no external feedback. Our code is available at https://github.com/sail-sg/dice.

Summary

AI-Generated Summary

PDF411December 4, 2024