DRIFT: Обучение на основе обильного недовольства пользователей в задачах реального обучения предпочтениям
DRIFT: Learning from Abundant User Dissatisfaction in Real-World Preference Learning
September 27, 2025
Авторы: Yifan Wang, Bolian Li, Junlin Wu, Zhaoxuan Tan, Zheli Liu, Ruqi Zhang, Ananth Grama, Qingkai Zeng
cs.AI
Аннотация
Реальные развертывания крупных языковых моделей (например, системы диалогового ИИ, помощники по генерации кода) естественным образом генерируют множество неявных сигналов неудовлетворенности пользователей (DSAT), поскольку пользователи итеративно стремятся к лучшим ответам через уточнения, исправления и выраженные предпочтения, в то время как явные сигналы удовлетворенности (SAT) встречаются редко. Существующие подходы к обучению на основе предпочтений плохо согласуются с таким профилем данных, так как они полагаются на дорогостоящие аннотации от людей или предполагают изобилие положительных откликов. В данной статье мы представляем DRIFT (Dissatisfaction-Refined Iterative preFerence Training), который основывает обучение на реальных сигналах DSAT и динамически выбирает положительные примеры из развивающейся политики. Эмпирически, модели DRIFT, обученные на реальных наборах данных WildFeedback и синтетических наборах UltraFeedback, демонстрируют улучшение до +6,23% (7B) / +7,61% (14B) на WildBench Task Score и до +8,95% (7B) / +12,29% (14B) на AlpacaEval2 win rate по сравнению с базовыми моделями, превосходя сильные базовые методы, такие как итеративный DPO и SPIN. На более крупных масштабах улучшения особенно заметны: модели 14B, обученные с DRIFT, превосходят GPT-4o-mini на WildBench. Дополнительный анализ показывает, что DRIFT также сохраняет исследовательскую способность, предлагая более разнообразные решения с высокой наградой, а не сводя их к узким подмножествам. Теоретически мы демонстрируем, что такой дизайн сохраняет маржи предпочтений и избегает дегенерации градиента. Эти результаты показывают, что DRIFT является эффективным и масштабируемым рецептом для пост-обучения в реальных условиях, использующим наиболее обильный и информативный сигнал. Код и данные доступны по адресу https://github.com/cacayaya/DRIFT.git.
English
Real-world large language model deployments (e.g., conversational AI systems,
code generation assistants) naturally generate abundant implicit user
dissatisfaction (DSAT) signals, as users iterate toward better answers through
refinements, corrections, and expressed preferences, while explicit
satisfaction (SAT) feedback is scarce. Existing preference learning approaches
are poorly aligned with this data profile, as they rely on costly human
annotations or assume plentiful positive responses. In this paper, we introduce
DRIFT (Dissatisfaction-Refined Iterative
preFerence Training), which anchors training on real-world
DSAT signals and samples positives dynamically from the evolving policy.
Empirically, DRIFT models trained on real-world WildFeedback datasets
and synthetic UltraFeedback datasets achieve up to +6.23\% (7B) /
+7.61\% (14B) on WildBench Task Score and up to +8.95\% (7B) / +12.29\% (14B)
on AlpacaEval2 win rate over base models, outperforming strong baseline methods
such as iterative DPO and SPIN. At larger scales, the improvements are
particularly pronounced: 14B models trained with DRIFT surpass GPT-4o-mini on
WildBench. Further analysis shows that DRIFT also preserves exploratory
capacity, yielding more diverse high-reward solutions rather than collapsing to
narrow subsets. Theoretically, we demonstrate that this design preserves
preference margins and avoids the gradient degeneration. These results show
that DRIFT is an effective and scalable recipe for real-world post-training
that leverages the most abundant and informative signal. The code and data are
available at https://github.com/cacayaya/DRIFT.git.