DRIFT : Apprentissage à partir de l'abondance d'insatisfaction utilisateur dans l'apprentissage des préférences en contexte réel

papers.abstract

Les déploiements de grands modèles de langage dans le monde réel (par exemple, les systèmes d'IA conversationnelle, les assistants de génération de code) génèrent naturellement une abondance de signaux implicites d'insatisfaction des utilisateurs (DSAT), car ces derniers itèrent pour obtenir de meilleures réponses à travers des affinements, des corrections et des préférences exprimées, tandis que les retours explicites de satisfaction (SAT) sont rares. Les approches existantes d'apprentissage des préférences sont mal alignées avec ce profil de données, car elles reposent sur des annotations humaines coûteuses ou supposent une abondance de réponses positives. Dans cet article, nous introduisons DRIFT (Dissatisfaction-Refined Iterative preFerence Training), qui ancre l'entraînement sur les signaux DSAT du monde réel et échantillonne dynamiquement les positifs à partir de la politique en évolution. Empiriquement, les modèles DRIFT entraînés sur les ensembles de données WildFeedback du monde réel et les ensembles de données synthétiques UltraFeedback atteignent jusqu'à +6,23 % (7B) / +7,61 % (14B) sur le score de tâche WildBench et jusqu'à +8,95 % (7B) / +12,29 % (14B) sur le taux de victoire AlpacaEval2 par rapport aux modèles de base, surpassant des méthodes de référence solides telles que DPO itératif et SPIN. À plus grande échelle, les améliorations sont particulièrement marquées : les modèles 14B entraînés avec DRIFT surpassent GPT-4o-mini sur WildBench. Une analyse plus approfondie montre que DRIFT préserve également la capacité d'exploration, produisant des solutions plus diversifiées à haut rendement plutôt que de s'effondrer vers des sous-ensembles étroits. Théoriquement, nous démontrons que cette conception préserve les marges de préférence et évite la dégénérescence du gradient. Ces résultats montrent que DRIFT est une recette efficace et évolutive pour l'après-entraînement dans le monde réel, exploitant le signal le plus abondant et informatif. Le code et les données sont disponibles à l'adresse https://github.com/cacayaya/DRIFT.git.

English

Real-world large language model deployments (e.g., conversational AI systems, code generation assistants) naturally generate abundant implicit user dissatisfaction (DSAT) signals, as users iterate toward better answers through refinements, corrections, and expressed preferences, while explicit satisfaction (SAT) feedback is scarce. Existing preference learning approaches are poorly aligned with this data profile, as they rely on costly human annotations or assume plentiful positive responses. In this paper, we introduce DRIFT (Dissatisfaction-Refined Iterative preFerence Training), which anchors training on real-world DSAT signals and samples positives dynamically from the evolving policy. Empirically, DRIFT models trained on real-world WildFeedback datasets and synthetic UltraFeedback datasets achieve up to +6.23\% (7B) / +7.61\% (14B) on WildBench Task Score and up to +8.95\% (7B) / +12.29\% (14B) on AlpacaEval2 win rate over base models, outperforming strong baseline methods such as iterative DPO and SPIN. At larger scales, the improvements are particularly pronounced: 14B models trained with DRIFT surpass GPT-4o-mini on WildBench. Further analysis shows that DRIFT also preserves exploratory capacity, yielding more diverse high-reward solutions rather than collapsing to narrow subsets. Theoretically, we demonstrate that this design preserves preference margins and avoids the gradient degeneration. These results show that DRIFT is an effective and scalable recipe for real-world post-training that leverages the most abundant and informative signal. The code and data are available at https://github.com/cacayaya/DRIFT.git.

DRIFT : Apprentissage à partir de l'abondance d'insatisfaction utilisateur dans l'apprentissage des préférences en contexte réel

DRIFT: Learning from Abundant User Dissatisfaction in Real-World Preference Learning

papers.abstract

Support