DRIFT: Lernen aus reichlich vorhandener Nutzerunzufriedenheit im realen Präferenzlernen
DRIFT: Learning from Abundant User Dissatisfaction in Real-World Preference Learning
September 27, 2025
papers.authors: Yifan Wang, Bolian Li, Junlin Wu, Zhaoxuan Tan, Zheli Liu, Ruqi Zhang, Ananth Grama, Qingkai Zeng
cs.AI
papers.abstract
Reale Implementierungen großer Sprachmodelle (z. B. konversationelle KI-Systeme, Code-Generierungsassistenten) erzeugen natürlicherweise zahlreiche implizite Signale für Nutzerunzufriedenheit (DSAT), da Nutzer durch Verfeinerungen, Korrekturen und geäußerte Präferenzen iterativ bessere Antworten anstreben, während explizite Zufriedenheitsrückmeldungen (SAT) selten sind. Bestehende Ansätze zum Präferenzlernen sind schlecht auf dieses Datenprofil abgestimmt, da sie auf kostspielige menschliche Annotationen angewiesen sind oder von einer Fülle positiver Rückmeldungen ausgehen. In diesem Artikel stellen wir DRIFT (Dissatisfaction-Refined Iterative preFerence Training) vor, das das Training auf realen DSAT-Signalen verankert und positive Beispiele dynamisch aus der sich entwickelnden Policy zieht. Empirisch erreichen DRIFT-Modelle, die auf realen WildFeedback-Datensätzen und synthetischen UltraFeedback-Datensätzen trainiert wurden, Verbesserungen von bis zu +6,23 % (7B) / +7,61 % (14B) beim WildBench Task Score und bis zu +8,95 % (7B) / +12,29 % (14B) bei der AlpacaEval2-Gewinnrate gegenüber Basismodellen und übertreffen damit starke Baseline-Methoden wie iteratives DPO und SPIN. In größeren Maßstäben sind die Verbesserungen besonders deutlich: 14B-Modelle, die mit DRIFT trainiert wurden, übertreffen GPT-4o-mini bei WildBench. Weitere Analysen zeigen, dass DRIFT auch die explorative Kapazität bewahrt und vielfältigere Lösungen mit hoher Belohnung liefert, anstatt auf enge Teilmengen zusammenzubrechen. Theoretisch zeigen wir, dass dieses Design Präferenzmargen bewahrt und eine Gradientendegeneration vermeidet. Diese Ergebnisse zeigen, dass DRIFT ein effektives und skalierbares Rezept für das Post-Training in der realen Welt ist, das das häufigste und informativste Signal nutzt. Der Code und die Daten sind unter https://github.com/cacayaya/DRIFT.git verfügbar.
English
Real-world large language model deployments (e.g., conversational AI systems,
code generation assistants) naturally generate abundant implicit user
dissatisfaction (DSAT) signals, as users iterate toward better answers through
refinements, corrections, and expressed preferences, while explicit
satisfaction (SAT) feedback is scarce. Existing preference learning approaches
are poorly aligned with this data profile, as they rely on costly human
annotations or assume plentiful positive responses. In this paper, we introduce
DRIFT (Dissatisfaction-Refined Iterative
preFerence Training), which anchors training on real-world
DSAT signals and samples positives dynamically from the evolving policy.
Empirically, DRIFT models trained on real-world WildFeedback datasets
and synthetic UltraFeedback datasets achieve up to +6.23\% (7B) /
+7.61\% (14B) on WildBench Task Score and up to +8.95\% (7B) / +12.29\% (14B)
on AlpacaEval2 win rate over base models, outperforming strong baseline methods
such as iterative DPO and SPIN. At larger scales, the improvements are
particularly pronounced: 14B models trained with DRIFT surpass GPT-4o-mini on
WildBench. Further analysis shows that DRIFT also preserves exploratory
capacity, yielding more diverse high-reward solutions rather than collapsing to
narrow subsets. Theoretically, we demonstrate that this design preserves
preference margins and avoids the gradient degeneration. These results show
that DRIFT is an effective and scalable recipe for real-world post-training
that leverages the most abundant and informative signal. The code and data are
available at https://github.com/cacayaya/DRIFT.git.