DRIFT: Aprendendo com a Abundância de Insatisfação do Usuário no Aprendizado de Preferências do Mundo Real
DRIFT: Learning from Abundant User Dissatisfaction in Real-World Preference Learning
September 27, 2025
Autores: Yifan Wang, Bolian Li, Junlin Wu, Zhaoxuan Tan, Zheli Liu, Ruqi Zhang, Ananth Grama, Qingkai Zeng
cs.AI
Resumo
Implantações de grandes modelos de linguagem no mundo real (por exemplo, sistemas de IA conversacional, assistentes de geração de código) naturalmente geram sinais abundantes de insatisfação implícita do usuário (DSAT), à medida que os usuários iteram em busca de melhores respostas por meio de refinamentos, correções e preferências expressas, enquanto o feedback explícito de satisfação (SAT) é escasso. As abordagens existentes de aprendizado de preferências estão mal alinhadas com esse perfil de dados, pois dependem de anotações humanas custosas ou assumem respostas positivas abundantes. Neste artigo, introduzimos o DRIFT (Dissatisfaction-Refined Iterative preFerence Training), que ancora o treinamento em sinais reais de DSAT e amostra positivos dinamicamente a partir da política em evolução. Empiricamente, modelos DRIFT treinados em conjuntos de dados reais WildFeedback e sintéticos UltraFeedback alcançam até +6,23% (7B) / +7,61% (14B) no WildBench Task Score e até +8,95% (7B) / +12,29% (14B) na taxa de vitória do AlpacaEval2 em relação aos modelos base, superando métodos de linha de base robustos, como DPO iterativo e SPIN. Em escalas maiores, as melhorias são particularmente pronunciadas: modelos de 14B treinados com DRIFT superam o GPT-4o-mini no WildBench. Análises adicionais mostram que o DRIFT também preserva a capacidade exploratória, gerando soluções de alta recompensa mais diversas em vez de colapsar para subconjuntos estreitos. Teoricamente, demonstramos que esse design preserva as margens de preferência e evita a degeneração do gradiente. Esses resultados mostram que o DRIFT é uma receita eficaz e escalável para pós-treinamento no mundo real que aproveita o sinal mais abundante e informativo. O código e os dados estão disponíveis em https://github.com/cacayaya/DRIFT.git.
English
Real-world large language model deployments (e.g., conversational AI systems,
code generation assistants) naturally generate abundant implicit user
dissatisfaction (DSAT) signals, as users iterate toward better answers through
refinements, corrections, and expressed preferences, while explicit
satisfaction (SAT) feedback is scarce. Existing preference learning approaches
are poorly aligned with this data profile, as they rely on costly human
annotations or assume plentiful positive responses. In this paper, we introduce
DRIFT (Dissatisfaction-Refined Iterative
preFerence Training), which anchors training on real-world
DSAT signals and samples positives dynamically from the evolving policy.
Empirically, DRIFT models trained on real-world WildFeedback datasets
and synthetic UltraFeedback datasets achieve up to +6.23\% (7B) /
+7.61\% (14B) on WildBench Task Score and up to +8.95\% (7B) / +12.29\% (14B)
on AlpacaEval2 win rate over base models, outperforming strong baseline methods
such as iterative DPO and SPIN. At larger scales, the improvements are
particularly pronounced: 14B models trained with DRIFT surpass GPT-4o-mini on
WildBench. Further analysis shows that DRIFT also preserves exploratory
capacity, yielding more diverse high-reward solutions rather than collapsing to
narrow subsets. Theoretically, we demonstrate that this design preserves
preference margins and avoids the gradient degeneration. These results show
that DRIFT is an effective and scalable recipe for real-world post-training
that leverages the most abundant and informative signal. The code and data are
available at https://github.com/cacayaya/DRIFT.git.