DRIFT : Apprentissage à partir de l'abondance d'insatisfaction utilisateur dans l'apprentissage des préférences en contexte réel
DRIFT: Learning from Abundant User Dissatisfaction in Real-World Preference Learning
September 27, 2025
papers.authors: Yifan Wang, Bolian Li, Junlin Wu, Zhaoxuan Tan, Zheli Liu, Ruqi Zhang, Ananth Grama, Qingkai Zeng
cs.AI
papers.abstract
Les déploiements de grands modèles de langage dans le monde réel (par exemple, les systèmes d'IA conversationnelle, les assistants de génération de code) génèrent naturellement une abondance de signaux implicites d'insatisfaction des utilisateurs (DSAT), car ces derniers itèrent pour obtenir de meilleures réponses à travers des affinements, des corrections et des préférences exprimées, tandis que les retours explicites de satisfaction (SAT) sont rares. Les approches existantes d'apprentissage des préférences sont mal alignées avec ce profil de données, car elles reposent sur des annotations humaines coûteuses ou supposent une abondance de réponses positives. Dans cet article, nous introduisons DRIFT (Dissatisfaction-Refined Iterative preFerence Training), qui ancre l'entraînement sur les signaux DSAT du monde réel et échantillonne dynamiquement les positifs à partir de la politique en évolution. Empiriquement, les modèles DRIFT entraînés sur les ensembles de données WildFeedback du monde réel et les ensembles de données synthétiques UltraFeedback atteignent jusqu'à +6,23 % (7B) / +7,61 % (14B) sur le score de tâche WildBench et jusqu'à +8,95 % (7B) / +12,29 % (14B) sur le taux de victoire AlpacaEval2 par rapport aux modèles de base, surpassant des méthodes de référence solides telles que DPO itératif et SPIN. À plus grande échelle, les améliorations sont particulièrement marquées : les modèles 14B entraînés avec DRIFT surpassent GPT-4o-mini sur WildBench. Une analyse plus approfondie montre que DRIFT préserve également la capacité d'exploration, produisant des solutions plus diversifiées à haut rendement plutôt que de s'effondrer vers des sous-ensembles étroits. Théoriquement, nous démontrons que cette conception préserve les marges de préférence et évite la dégénérescence du gradient. Ces résultats montrent que DRIFT est une recette efficace et évolutive pour l'après-entraînement dans le monde réel, exploitant le signal le plus abondant et informatif. Le code et les données sont disponibles à l'adresse https://github.com/cacayaya/DRIFT.git.
English
Real-world large language model deployments (e.g., conversational AI systems,
code generation assistants) naturally generate abundant implicit user
dissatisfaction (DSAT) signals, as users iterate toward better answers through
refinements, corrections, and expressed preferences, while explicit
satisfaction (SAT) feedback is scarce. Existing preference learning approaches
are poorly aligned with this data profile, as they rely on costly human
annotations or assume plentiful positive responses. In this paper, we introduce
DRIFT (Dissatisfaction-Refined Iterative
preFerence Training), which anchors training on real-world
DSAT signals and samples positives dynamically from the evolving policy.
Empirically, DRIFT models trained on real-world WildFeedback datasets
and synthetic UltraFeedback datasets achieve up to +6.23\% (7B) /
+7.61\% (14B) on WildBench Task Score and up to +8.95\% (7B) / +12.29\% (14B)
on AlpacaEval2 win rate over base models, outperforming strong baseline methods
such as iterative DPO and SPIN. At larger scales, the improvements are
particularly pronounced: 14B models trained with DRIFT surpass GPT-4o-mini on
WildBench. Further analysis shows that DRIFT also preserves exploratory
capacity, yielding more diverse high-reward solutions rather than collapsing to
narrow subsets. Theoretically, we demonstrate that this design preserves
preference margins and avoids the gradient degeneration. These results show
that DRIFT is an effective and scalable recipe for real-world post-training
that leverages the most abundant and informative signal. The code and data are
available at https://github.com/cacayaya/DRIFT.git.