ChatPaper.aiChatPaper

DRIFT: Lernen aus reichlich vorhandener Nutzerunzufriedenheit im realen Präferenzlernen

DRIFT: Learning from Abundant User Dissatisfaction in Real-World Preference Learning

September 27, 2025
papers.authors: Yifan Wang, Bolian Li, Junlin Wu, Zhaoxuan Tan, Zheli Liu, Ruqi Zhang, Ananth Grama, Qingkai Zeng
cs.AI

papers.abstract

Reale Implementierungen großer Sprachmodelle (z. B. konversationelle KI-Systeme, Code-Generierungsassistenten) erzeugen natürlicherweise zahlreiche implizite Signale für Nutzerunzufriedenheit (DSAT), da Nutzer durch Verfeinerungen, Korrekturen und geäußerte Präferenzen iterativ bessere Antworten anstreben, während explizite Zufriedenheitsrückmeldungen (SAT) selten sind. Bestehende Ansätze zum Präferenzlernen sind schlecht auf dieses Datenprofil abgestimmt, da sie auf kostspielige menschliche Annotationen angewiesen sind oder von einer Fülle positiver Rückmeldungen ausgehen. In diesem Artikel stellen wir DRIFT (Dissatisfaction-Refined Iterative preFerence Training) vor, das das Training auf realen DSAT-Signalen verankert und positive Beispiele dynamisch aus der sich entwickelnden Policy zieht. Empirisch erreichen DRIFT-Modelle, die auf realen WildFeedback-Datensätzen und synthetischen UltraFeedback-Datensätzen trainiert wurden, Verbesserungen von bis zu +6,23 % (7B) / +7,61 % (14B) beim WildBench Task Score und bis zu +8,95 % (7B) / +12,29 % (14B) bei der AlpacaEval2-Gewinnrate gegenüber Basismodellen und übertreffen damit starke Baseline-Methoden wie iteratives DPO und SPIN. In größeren Maßstäben sind die Verbesserungen besonders deutlich: 14B-Modelle, die mit DRIFT trainiert wurden, übertreffen GPT-4o-mini bei WildBench. Weitere Analysen zeigen, dass DRIFT auch die explorative Kapazität bewahrt und vielfältigere Lösungen mit hoher Belohnung liefert, anstatt auf enge Teilmengen zusammenzubrechen. Theoretisch zeigen wir, dass dieses Design Präferenzmargen bewahrt und eine Gradientendegeneration vermeidet. Diese Ergebnisse zeigen, dass DRIFT ein effektives und skalierbares Rezept für das Post-Training in der realen Welt ist, das das häufigste und informativste Signal nutzt. Der Code und die Daten sind unter https://github.com/cacayaya/DRIFT.git verfügbar.
English
Real-world large language model deployments (e.g., conversational AI systems, code generation assistants) naturally generate abundant implicit user dissatisfaction (DSAT) signals, as users iterate toward better answers through refinements, corrections, and expressed preferences, while explicit satisfaction (SAT) feedback is scarce. Existing preference learning approaches are poorly aligned with this data profile, as they rely on costly human annotations or assume plentiful positive responses. In this paper, we introduce DRIFT (Dissatisfaction-Refined Iterative preFerence Training), which anchors training on real-world DSAT signals and samples positives dynamically from the evolving policy. Empirically, DRIFT models trained on real-world WildFeedback datasets and synthetic UltraFeedback datasets achieve up to +6.23\% (7B) / +7.61\% (14B) on WildBench Task Score and up to +8.95\% (7B) / +12.29\% (14B) on AlpacaEval2 win rate over base models, outperforming strong baseline methods such as iterative DPO and SPIN. At larger scales, the improvements are particularly pronounced: 14B models trained with DRIFT surpass GPT-4o-mini on WildBench. Further analysis shows that DRIFT also preserves exploratory capacity, yielding more diverse high-reward solutions rather than collapsing to narrow subsets. Theoretically, we demonstrate that this design preserves preference margins and avoids the gradient degeneration. These results show that DRIFT is an effective and scalable recipe for real-world post-training that leverages the most abundant and informative signal. The code and data are available at https://github.com/cacayaya/DRIFT.git.
PDF22October 8, 2025