ChatPaper.aiChatPaper

RealDPO: Real o No Real, esa es la Preferencia

RealDPO: Real or Not Real, that is the Preference

October 16, 2025
Autores: Guo Cheng, Danni Yang, Ziqi Huang, Jianlou Si, Chenyang Si, Ziwei Liu
cs.AI

Resumen

Los modelos generativos de video han logrado recientemente avances notables en la calidad de síntesis. Sin embargo, la generación de movimientos complejos sigue siendo un desafío crítico, ya que los modelos existentes a menudo tienen dificultades para producir movimientos naturales, fluidos y contextualmente consistentes. Esta brecha entre los movimientos generados y los del mundo real limita su aplicabilidad práctica. Para abordar este problema, presentamos RealDPO, un nuevo paradigma de alineación que aprovecha datos del mundo real como muestras positivas para el aprendizaje de preferencias, permitiendo una síntesis de movimientos más precisa. A diferencia del ajuste fino supervisado tradicional (SFT), que ofrece retroalimentación correctiva limitada, RealDPO emplea la Optimización Directa de Preferencias (DPO) con una función de pérdida personalizada para mejorar el realismo del movimiento. Al contrastar videos del mundo real con salidas erróneas del modelo, RealDPO permite una autocorrección iterativa, refinando progresivamente la calidad del movimiento. Para apoyar el entrenamiento posterior en la síntesis de movimientos complejos, proponemos RealAction-5K, un conjunto de datos curado de videos de alta calidad que capturan actividades diarias humanas con detalles de movimiento ricos y precisos. Experimentos extensos demuestran que RealDPO mejora significativamente la calidad del video, la alineación con el texto y el realismo del movimiento en comparación con los modelos de última generación y las técnicas existentes de optimización de preferencias.
English
Video generative models have recently achieved notable advancements in synthesis quality. However, generating complex motions remains a critical challenge, as existing models often struggle to produce natural, smooth, and contextually consistent movements. This gap between generated and real-world motions limits their practical applicability. To address this issue, we introduce RealDPO, a novel alignment paradigm that leverages real-world data as positive samples for preference learning, enabling more accurate motion synthesis. Unlike traditional supervised fine-tuning (SFT), which offers limited corrective feedback, RealDPO employs Direct Preference Optimization (DPO) with a tailored loss function to enhance motion realism. By contrasting real-world videos with erroneous model outputs, RealDPO enables iterative self-correction, progressively refining motion quality. To support post-training in complex motion synthesis, we propose RealAction-5K, a curated dataset of high-quality videos capturing human daily activities with rich and precise motion details. Extensive experiments demonstrate that RealDPO significantly improves video quality, text alignment, and motion realism compared to state-of-the-art models and existing preference optimization techniques.
PDF62October 17, 2025