Taalmodellen opstarten met DPO Impliciete Beloningen
Bootstrapping Language Models with DPO Implicit Rewards
June 14, 2024
Auteurs: Changyu Chen, Zichen Liu, Chao Du, Tianyu Pang, Qian Liu, Arunesh Sinha, Pradeep Varakantham, Min Lin
cs.AI
Samenvatting
Het afstemmen van grote taalmodellen (LLMs) op menselijke voorkeuren is een actief onderzoeksgebied. Recent baanbrekend werk, direct preference optimization (DPO), heeft het proces aanzienlijk vereenvoudigd ten opzichte van eerdere methoden zoals reinforcement learning from human feedback (RLHF), door de beloningsleerfase in RLHF over te slaan. DPO biedt na training een impliciet beloningsmodel. In dit werk doen we een nieuwe observatie: dit impliciete beloningsmodel kan op zichzelf worden gebruikt in een bootstrapping-manier om het LLM verder af te stemmen. Onze aanpak is om de beloningen van een huidig LLM-model te gebruiken om een voorkeursdataset te construeren, die vervolgens wordt gebruikt in volgende DPO-rondes. We integreren verfijningen die de lengte van de reacties ontdoen van bias en de kwaliteit van de voorkeursdataset verbeteren om onze aanpak verder te verbeteren. Onze aanpak, genaamd self-alignment with DPO ImpliCit rEwards (DICE), toont aanzienlijke verbeteringen in afstemming en behaalt superieure prestaties dan Gemini Pro op AlpacaEval 2, met een lengte-gecontroleerde winratio van 27,55% tegenover GPT-4 Turbo, maar met slechts 8B parameters en zonder externe feedback. Onze code is beschikbaar op https://github.com/sail-sg/dice.
English
Human alignment in large language models (LLMs) is an active area of
research. A recent groundbreaking work, direct preference optimization (DPO),
has greatly simplified the process from past work in reinforcement learning
from human feedback (RLHF) by bypassing the reward learning stage in RLHF. DPO,
after training, provides an implicit reward model. In this work, we make a
novel observation that this implicit reward model can by itself be used in a
bootstrapping fashion to further align the LLM. Our approach is to use the
rewards from a current LLM model to construct a preference dataset, which is
then used in subsequent DPO rounds. We incorporate refinements that debias the
length of the responses and improve the quality of the preference dataset to
further improve our approach. Our approach, named self-alignment with DPO
ImpliCit rEwards (DICE), shows great improvements in alignment and achieves
superior performance than Gemini Pro on AlpacaEval 2, reaching 27.55%
length-controlled win rate against GPT-4 Turbo, but with only 8B parameters and
no external feedback. Our code is available at https://github.com/sail-sg/dice.