DRIFT: Apprendimento dall'Abbondante Insoddisfazione degli Utenti nell'Apprendimento delle Preferenze nel Mondo Reale
DRIFT: Learning from Abundant User Dissatisfaction in Real-World Preference Learning
September 27, 2025
Autori: Yifan Wang, Bolian Li, Junlin Wu, Zhaoxuan Tan, Zheli Liu, Ruqi Zhang, Ananth Grama, Qingkai Zeng
cs.AI
Abstract
I deployment di modelli linguistici su larga scala nel mondo reale (ad esempio, sistemi di intelligenza artificiale conversazionale, assistenti per la generazione di codice) generano naturalmente un'abbondanza di segnali impliciti di insoddisfazione degli utenti (DSAT), poiché gli utenti iterano verso risposte migliori attraverso raffinamenti, correzioni e preferenze espresse, mentre il feedback esplicito di soddisfazione (SAT) è scarso. Gli approcci esistenti per l'apprendimento delle preferenze sono poco allineati con questo profilo di dati, poiché si basano su costose annotazioni umane o presuppongono una grande quantità di risposte positive. In questo articolo, introduciamo DRIFT (Dissatisfaction-Refined Iterative preFerence Training), che ancorano l'addestramento ai segnali DSAT del mondo reale e campionano dinamicamente i positivi dalla politica in evoluzione. Empiricamente, i modelli DRIFT addestrati sui dataset reali WildFeedback e sui dataset sintetici UltraFeedback raggiungono fino a +6,23% (7B) / +7,61% (14B) su WildBench Task Score e fino a +8,95% (7B) / +12,29% (14B) sul tasso di vittoria di AlpacaEval2 rispetto ai modelli base, superando metodi di baseline robusti come DPO iterativo e SPIN. Su scale più grandi, i miglioramenti sono particolarmente evidenti: i modelli 14B addestrati con DRIFT superano GPT-4o-mini su WildBench. Un'ulteriore analisi mostra che DRIFT preserva anche la capacità esplorativa, producendo soluzioni ad alta ricompensa più diversificate piuttosto che collassare in sottoinsiemi ristretti. Teoricamente, dimostriamo che questo design preserva i margini di preferenza ed evita la degenerazione del gradiente. Questi risultati mostrano che DRIFT è una ricetta efficace e scalabile per il post-training nel mondo reale che sfrutta il segnale più abbondante e informativo. Il codice e i dati sono disponibili su https://github.com/cacayaya/DRIFT.git.
English
Real-world large language model deployments (e.g., conversational AI systems,
code generation assistants) naturally generate abundant implicit user
dissatisfaction (DSAT) signals, as users iterate toward better answers through
refinements, corrections, and expressed preferences, while explicit
satisfaction (SAT) feedback is scarce. Existing preference learning approaches
are poorly aligned with this data profile, as they rely on costly human
annotations or assume plentiful positive responses. In this paper, we introduce
DRIFT (Dissatisfaction-Refined Iterative
preFerence Training), which anchors training on real-world
DSAT signals and samples positives dynamically from the evolving policy.
Empirically, DRIFT models trained on real-world WildFeedback datasets
and synthetic UltraFeedback datasets achieve up to +6.23\% (7B) /
+7.61\% (14B) on WildBench Task Score and up to +8.95\% (7B) / +12.29\% (14B)
on AlpacaEval2 win rate over base models, outperforming strong baseline methods
such as iterative DPO and SPIN. At larger scales, the improvements are
particularly pronounced: 14B models trained with DRIFT surpass GPT-4o-mini on
WildBench. Further analysis shows that DRIFT also preserves exploratory
capacity, yielding more diverse high-reward solutions rather than collapsing to
narrow subsets. Theoretically, we demonstrate that this design preserves
preference margins and avoids the gradient degeneration. These results show
that DRIFT is an effective and scalable recipe for real-world post-training
that leverages the most abundant and informative signal. The code and data are
available at https://github.com/cacayaya/DRIFT.git.