RealDPO: Реальное или Не Реальное — Вот в чем Предпочтение
RealDPO: Real or Not Real, that is the Preference
October 16, 2025
Авторы: Guo Cheng, Danni Yang, Ziqi Huang, Jianlou Si, Chenyang Si, Ziwei Liu
cs.AI
Аннотация
Видеогенеративные модели в последнее время достигли значительных успехов в качестве синтеза. Однако генерация сложных движений остается серьезной проблемой, поскольку существующие модели часто не способны создавать естественные, плавные и контекстуально согласованные движения. Этот разрыв между сгенерированными и реальными движениями ограничивает их практическую применимость. Для решения этой проблемы мы представляем RealDPO, новую парадигму выравнивания, которая использует реальные данные в качестве положительных образцов для обучения с учетом предпочтений, что позволяет более точно синтезировать движения. В отличие от традиционного контролируемого тонкого настройки (SFT), который предоставляет ограниченную корректирующую обратную связь, RealDPO применяет оптимизацию прямых предпочтений (DPO) с адаптированной функцией потерь для повышения реалистичности движений. Сравнивая реальные видео с ошибочными выходами модели, RealDPO обеспечивает итеративное самокорректирование, постепенно улучшая качество движений. Для поддержки пост-обучения в синтезе сложных движений мы предлагаем RealAction-5K, тщательно отобранный набор данных высококачественных видео, фиксирующих повседневную деятельность человека с богатыми и точными деталями движений. Многочисленные эксперименты демонстрируют, что RealDPO значительно улучшает качество видео, соответствие тексту и реалистичность движений по сравнению с передовыми моделями и существующими методами оптимизации предпочтений.
English
Video generative models have recently achieved notable advancements in
synthesis quality. However, generating complex motions remains a critical
challenge, as existing models often struggle to produce natural, smooth, and
contextually consistent movements. This gap between generated and real-world
motions limits their practical applicability. To address this issue, we
introduce RealDPO, a novel alignment paradigm that leverages real-world data as
positive samples for preference learning, enabling more accurate motion
synthesis. Unlike traditional supervised fine-tuning (SFT), which offers
limited corrective feedback, RealDPO employs Direct Preference Optimization
(DPO) with a tailored loss function to enhance motion realism. By contrasting
real-world videos with erroneous model outputs, RealDPO enables iterative
self-correction, progressively refining motion quality. To support
post-training in complex motion synthesis, we propose RealAction-5K, a curated
dataset of high-quality videos capturing human daily activities with rich and
precise motion details. Extensive experiments demonstrate that RealDPO
significantly improves video quality, text alignment, and motion realism
compared to state-of-the-art models and existing preference optimization
techniques.