RealDPO: Reale o Non Reale, questa è la Preferenza
RealDPO: Real or Not Real, that is the Preference
October 16, 2025
Autori: Guo Cheng, Danni Yang, Ziqi Huang, Jianlou Si, Chenyang Si, Ziwei Liu
cs.AI
Abstract
I modelli generativi video hanno recentemente compiuto progressi significativi nella qualità della sintesi. Tuttavia, generare movimenti complessi rimane una sfida cruciale, poiché i modelli esistenti spesso faticano a produrre movimenti naturali, fluidi e contestualmente coerenti. Questo divario tra i movimenti generati e quelli del mondo reale ne limita l'applicabilità pratica. Per affrontare questo problema, introduciamo RealDPO, un nuovo paradigma di allineamento che sfrutta i dati del mondo reale come campioni positivi per l'apprendimento delle preferenze, consentendo una sintesi del movimento più accurata. A differenza del tradizionale fine-tuning supervisionato (SFT), che offre un feedback correttivo limitato, RealDPO utilizza l'ottimizzazione diretta delle preferenze (DPO) con una funzione di perdita personalizzata per migliorare il realismo del movimento. Confrontando video del mondo reale con output errati del modello, RealDPO consente un'auto-correzione iterativa, affinando progressivamente la qualità del movimento. Per supportare il post-addestramento nella sintesi di movimenti complessi, proponiamo RealAction-5K, un dataset curato di video di alta qualità che catturano attività quotidiane umane con dettagli di movimento ricchi e precisi. Esperimenti estensivi dimostrano che RealDPO migliora significativamente la qualità del video, l'allineamento del testo e il realismo del movimento rispetto ai modelli all'avanguardia e alle tecniche esistenti di ottimizzazione delle preferenze.
English
Video generative models have recently achieved notable advancements in
synthesis quality. However, generating complex motions remains a critical
challenge, as existing models often struggle to produce natural, smooth, and
contextually consistent movements. This gap between generated and real-world
motions limits their practical applicability. To address this issue, we
introduce RealDPO, a novel alignment paradigm that leverages real-world data as
positive samples for preference learning, enabling more accurate motion
synthesis. Unlike traditional supervised fine-tuning (SFT), which offers
limited corrective feedback, RealDPO employs Direct Preference Optimization
(DPO) with a tailored loss function to enhance motion realism. By contrasting
real-world videos with erroneous model outputs, RealDPO enables iterative
self-correction, progressively refining motion quality. To support
post-training in complex motion synthesis, we propose RealAction-5K, a curated
dataset of high-quality videos capturing human daily activities with rich and
precise motion details. Extensive experiments demonstrate that RealDPO
significantly improves video quality, text alignment, and motion realism
compared to state-of-the-art models and existing preference optimization
techniques.