DRIFT: Leren van overvloedige gebruikersontevredenheid in real-world voorkeursleren
DRIFT: Learning from Abundant User Dissatisfaction in Real-World Preference Learning
September 27, 2025
Auteurs: Yifan Wang, Bolian Li, Junlin Wu, Zhaoxuan Tan, Zheli Liu, Ruqi Zhang, Ananth Grama, Qingkai Zeng
cs.AI
Samenvatting
Implementaties van grote taalmodellen in de praktijk (bijvoorbeeld conversatie-AI-systemen, codegeneratie-assistenten) genereren van nature overvloedige impliciete signalen van gebruikersontevredenheid (DSAT), aangezien gebruikers iteratief betere antwoorden proberen te bereiken door verfijningen, correcties en uitgedrukte voorkeuren, terwijl expliciete tevredenheidsfeedback (SAT) schaars is. Bestaande benaderingen voor voorkeursleren sluiten slecht aan bij dit gegevensprofiel, omdat ze afhankelijk zijn van kostbare menselijke annotaties of uitgaan van een overvloed aan positieve reacties. In dit artikel introduceren we DRIFT (Dissatisfaction-Refined Iterative preFerence Training), dat de training verankert op real-world DSAT-signalen en positieve voorbeelden dynamisch samplet uit het evoluerende beleid. Empirisch gezien behalen DRIFT-modellen die getraind zijn op real-world WildFeedback-datasets en synthetische UltraFeedback-datasets een verbetering van tot +6,23% (7B) / +7,61% (14B) op de WildBench Task Score en tot +8,95% (7B) / +12,29% (14B) op de AlpacaEval2 win rate ten opzichte van basismodellen, waarbij ze sterke baseline-methoden zoals iteratieve DPO en SPIN overtreffen. Op grotere schalen zijn de verbeteringen bijzonder opvallend: 14B-modellen getraind met DRIFT overtreffen GPT-4o-mini op WildBench. Verdere analyse toont aan dat DRIFT ook de verkenningscapaciteit behoudt, wat resulteert in meer diverse oplossingen met hoge beloning in plaats van te vervallen tot smalle subsets. Theoretisch tonen we aan dat dit ontwerp voorkeursmarges behoudt en gradientdegeneratie vermijdt. Deze resultaten laten zien dat DRIFT een effectief en schaalbaar recept is voor real-world post-training dat gebruikmaakt van het meest overvloedige en informatieve signaal. De code en gegevens zijn beschikbaar op https://github.com/cacayaya/DRIFT.git.
English
Real-world large language model deployments (e.g., conversational AI systems,
code generation assistants) naturally generate abundant implicit user
dissatisfaction (DSAT) signals, as users iterate toward better answers through
refinements, corrections, and expressed preferences, while explicit
satisfaction (SAT) feedback is scarce. Existing preference learning approaches
are poorly aligned with this data profile, as they rely on costly human
annotations or assume plentiful positive responses. In this paper, we introduce
DRIFT (Dissatisfaction-Refined Iterative
preFerence Training), which anchors training on real-world
DSAT signals and samples positives dynamically from the evolving policy.
Empirically, DRIFT models trained on real-world WildFeedback datasets
and synthetic UltraFeedback datasets achieve up to +6.23\% (7B) /
+7.61\% (14B) on WildBench Task Score and up to +8.95\% (7B) / +12.29\% (14B)
on AlpacaEval2 win rate over base models, outperforming strong baseline methods
such as iterative DPO and SPIN. At larger scales, the improvements are
particularly pronounced: 14B models trained with DRIFT surpass GPT-4o-mini on
WildBench. Further analysis shows that DRIFT also preserves exploratory
capacity, yielding more diverse high-reward solutions rather than collapsing to
narrow subsets. Theoretically, we demonstrate that this design preserves
preference margins and avoids the gradient degeneration. These results show
that DRIFT is an effective and scalable recipe for real-world post-training
that leverages the most abundant and informative signal. The code and data are
available at https://github.com/cacayaya/DRIFT.git.