DRIFT: Aprendizaje a partir de la Abundante Insatisfacción del Usuario en el Aprendizaje de Preferencias del Mundo Real
DRIFT: Learning from Abundant User Dissatisfaction in Real-World Preference Learning
September 27, 2025
Autores: Yifan Wang, Bolian Li, Junlin Wu, Zhaoxuan Tan, Zheli Liu, Ruqi Zhang, Ananth Grama, Qingkai Zeng
cs.AI
Resumen
Los despliegues de modelos de lenguaje a gran escala en el mundo real (por ejemplo, sistemas de IA conversacional, asistentes de generación de código) generan naturalmente abundantes señales implícitas de insatisfacción del usuario (DSAT), ya que los usuarios iteran hacia respuestas mejores mediante refinamientos, correcciones y preferencias expresadas, mientras que la retroalimentación explícita de satisfacción (SAT) es escasa. Los enfoques existentes de aprendizaje de preferencias están mal alineados con este perfil de datos, ya que dependen de costosas anotaciones humanas o asumen respuestas positivas abundantes. En este artículo, presentamos DRIFT (Entrenamiento Iterativo de Preferencias Refinado por Insatisfacción), que ancla el entrenamiento en señales reales de DSAT y muestrea positivos dinámicamente a partir de la política en evolución. Empíricamente, los modelos DRIFT entrenados en conjuntos de datos reales de WildFeedback y conjuntos de datos sintéticos de UltraFeedback logran mejoras de hasta +6.23% (7B) / +7.61% (14B) en la puntuación de tareas de WildBench y hasta +8.95% (7B) / +12.29% (14B) en la tasa de victoria de AlpacaEval2 sobre los modelos base, superando métodos de referencia sólidos como DPO iterativo y SPIN. A escalas mayores, las mejoras son particularmente pronunciadas: los modelos de 14B entrenados con DRIFT superan a GPT-4o-mini en WildBench. Un análisis adicional muestra que DRIFT también preserva la capacidad exploratoria, generando soluciones más diversas de alta recompensa en lugar de colapsar en subconjuntos estrechos. Teóricamente, demostramos que este diseño preserva los márgenes de preferencia y evita la degeneración del gradiente. Estos resultados muestran que DRIFT es una receta efectiva y escalable para el entrenamiento posterior en el mundo real que aprovecha la señal más abundante e informativa. El código y los datos están disponibles en https://github.com/cacayaya/DRIFT.git.
English
Real-world large language model deployments (e.g., conversational AI systems,
code generation assistants) naturally generate abundant implicit user
dissatisfaction (DSAT) signals, as users iterate toward better answers through
refinements, corrections, and expressed preferences, while explicit
satisfaction (SAT) feedback is scarce. Existing preference learning approaches
are poorly aligned with this data profile, as they rely on costly human
annotations or assume plentiful positive responses. In this paper, we introduce
DRIFT (Dissatisfaction-Refined Iterative
preFerence Training), which anchors training on real-world
DSAT signals and samples positives dynamically from the evolving policy.
Empirically, DRIFT models trained on real-world WildFeedback datasets
and synthetic UltraFeedback datasets achieve up to +6.23\% (7B) /
+7.61\% (14B) on WildBench Task Score and up to +8.95\% (7B) / +12.29\% (14B)
on AlpacaEval2 win rate over base models, outperforming strong baseline methods
such as iterative DPO and SPIN. At larger scales, the improvements are
particularly pronounced: 14B models trained with DRIFT surpass GPT-4o-mini on
WildBench. Further analysis shows that DRIFT also preserves exploratory
capacity, yielding more diverse high-reward solutions rather than collapsing to
narrow subsets. Theoretically, we demonstrate that this design preserves
preference margins and avoids the gradient degeneration. These results show
that DRIFT is an effective and scalable recipe for real-world post-training
that leverages the most abundant and informative signal. The code and data are
available at https://github.com/cacayaya/DRIFT.git.