DRIFT: Apprendimento dall'Abbondante Insoddisfazione degli Utenti nell'Apprendimento delle Preferenze nel Mondo Reale

Abstract

I deployment di modelli linguistici su larga scala nel mondo reale (ad esempio, sistemi di intelligenza artificiale conversazionale, assistenti per la generazione di codice) generano naturalmente un'abbondanza di segnali impliciti di insoddisfazione degli utenti (DSAT), poiché gli utenti iterano verso risposte migliori attraverso raffinamenti, correzioni e preferenze espresse, mentre il feedback esplicito di soddisfazione (SAT) è scarso. Gli approcci esistenti per l'apprendimento delle preferenze sono poco allineati con questo profilo di dati, poiché si basano su costose annotazioni umane o presuppongono una grande quantità di risposte positive. In questo articolo, introduciamo DRIFT (Dissatisfaction-Refined Iterative preFerence Training), che ancorano l'addestramento ai segnali DSAT del mondo reale e campionano dinamicamente i positivi dalla politica in evoluzione. Empiricamente, i modelli DRIFT addestrati sui dataset reali WildFeedback e sui dataset sintetici UltraFeedback raggiungono fino a +6,23% (7B) / +7,61% (14B) su WildBench Task Score e fino a +8,95% (7B) / +12,29% (14B) sul tasso di vittoria di AlpacaEval2 rispetto ai modelli base, superando metodi di baseline robusti come DPO iterativo e SPIN. Su scale più grandi, i miglioramenti sono particolarmente evidenti: i modelli 14B addestrati con DRIFT superano GPT-4o-mini su WildBench. Un'ulteriore analisi mostra che DRIFT preserva anche la capacità esplorativa, producendo soluzioni ad alta ricompensa più diversificate piuttosto che collassare in sottoinsiemi ristretti. Teoricamente, dimostriamo che questo design preserva i margini di preferenza ed evita la degenerazione del gradiente. Questi risultati mostrano che DRIFT è una ricetta efficace e scalabile per il post-training nel mondo reale che sfrutta il segnale più abbondante e informativo. Il codice e i dati sono disponibili su https://github.com/cacayaya/DRIFT.git.

English

Real-world large language model deployments (e.g., conversational AI systems, code generation assistants) naturally generate abundant implicit user dissatisfaction (DSAT) signals, as users iterate toward better answers through refinements, corrections, and expressed preferences, while explicit satisfaction (SAT) feedback is scarce. Existing preference learning approaches are poorly aligned with this data profile, as they rely on costly human annotations or assume plentiful positive responses. In this paper, we introduce DRIFT (Dissatisfaction-Refined Iterative preFerence Training), which anchors training on real-world DSAT signals and samples positives dynamically from the evolving policy. Empirically, DRIFT models trained on real-world WildFeedback datasets and synthetic UltraFeedback datasets achieve up to +6.23\% (7B) / +7.61\% (14B) on WildBench Task Score and up to +8.95\% (7B) / +12.29\% (14B) on AlpacaEval2 win rate over base models, outperforming strong baseline methods such as iterative DPO and SPIN. At larger scales, the improvements are particularly pronounced: 14B models trained with DRIFT surpass GPT-4o-mini on WildBench. Further analysis shows that DRIFT also preserves exploratory capacity, yielding more diverse high-reward solutions rather than collapsing to narrow subsets. Theoretically, we demonstrate that this design preserves preference margins and avoids the gradient degeneration. These results show that DRIFT is an effective and scalable recipe for real-world post-training that leverages the most abundant and informative signal. The code and data are available at https://github.com/cacayaya/DRIFT.git.

DRIFT: Apprendimento dall'Abbondante Insoddisfazione degli Utenti nell'Apprendimento delle Preferenze nel Mondo Reale

DRIFT: Learning from Abundant User Dissatisfaction in Real-World Preference Learning

Abstract

Support