DRIFT: Обучение на основе обильного недовольства пользователей в задачах реального обучения предпочтениям

Аннотация

Реальные развертывания крупных языковых моделей (например, системы диалогового ИИ, помощники по генерации кода) естественным образом генерируют множество неявных сигналов неудовлетворенности пользователей (DSAT), поскольку пользователи итеративно стремятся к лучшим ответам через уточнения, исправления и выраженные предпочтения, в то время как явные сигналы удовлетворенности (SAT) встречаются редко. Существующие подходы к обучению на основе предпочтений плохо согласуются с таким профилем данных, так как они полагаются на дорогостоящие аннотации от людей или предполагают изобилие положительных откликов. В данной статье мы представляем DRIFT (Dissatisfaction-Refined Iterative preFerence Training), который основывает обучение на реальных сигналах DSAT и динамически выбирает положительные примеры из развивающейся политики. Эмпирически, модели DRIFT, обученные на реальных наборах данных WildFeedback и синтетических наборах UltraFeedback, демонстрируют улучшение до +6,23% (7B) / +7,61% (14B) на WildBench Task Score и до +8,95% (7B) / +12,29% (14B) на AlpacaEval2 win rate по сравнению с базовыми моделями, превосходя сильные базовые методы, такие как итеративный DPO и SPIN. На более крупных масштабах улучшения особенно заметны: модели 14B, обученные с DRIFT, превосходят GPT-4o-mini на WildBench. Дополнительный анализ показывает, что DRIFT также сохраняет исследовательскую способность, предлагая более разнообразные решения с высокой наградой, а не сводя их к узким подмножествам. Теоретически мы демонстрируем, что такой дизайн сохраняет маржи предпочтений и избегает дегенерации градиента. Эти результаты показывают, что DRIFT является эффективным и масштабируемым рецептом для пост-обучения в реальных условиях, использующим наиболее обильный и информативный сигнал. Код и данные доступны по адресу https://github.com/cacayaya/DRIFT.git.

English

Real-world large language model deployments (e.g., conversational AI systems, code generation assistants) naturally generate abundant implicit user dissatisfaction (DSAT) signals, as users iterate toward better answers through refinements, corrections, and expressed preferences, while explicit satisfaction (SAT) feedback is scarce. Existing preference learning approaches are poorly aligned with this data profile, as they rely on costly human annotations or assume plentiful positive responses. In this paper, we introduce DRIFT (Dissatisfaction-Refined Iterative preFerence Training), which anchors training on real-world DSAT signals and samples positives dynamically from the evolving policy. Empirically, DRIFT models trained on real-world WildFeedback datasets and synthetic UltraFeedback datasets achieve up to +6.23\% (7B) / +7.61\% (14B) on WildBench Task Score and up to +8.95\% (7B) / +12.29\% (14B) on AlpacaEval2 win rate over base models, outperforming strong baseline methods such as iterative DPO and SPIN. At larger scales, the improvements are particularly pronounced: 14B models trained with DRIFT surpass GPT-4o-mini on WildBench. Further analysis shows that DRIFT also preserves exploratory capacity, yielding more diverse high-reward solutions rather than collapsing to narrow subsets. Theoretically, we demonstrate that this design preserves preference margins and avoids the gradient degeneration. These results show that DRIFT is an effective and scalable recipe for real-world post-training that leverages the most abundant and informative signal. The code and data are available at https://github.com/cacayaya/DRIFT.git.

DRIFT: Обучение на основе обильного недовольства пользователей в задачах реального обучения предпочтениям

DRIFT: Learning from Abundant User Dissatisfaction in Real-World Preference Learning

Аннотация

Support