RealDPO: Reale o Non Reale, questa è la Preferenza

Abstract

I modelli generativi video hanno recentemente compiuto progressi significativi nella qualità della sintesi. Tuttavia, generare movimenti complessi rimane una sfida cruciale, poiché i modelli esistenti spesso faticano a produrre movimenti naturali, fluidi e contestualmente coerenti. Questo divario tra i movimenti generati e quelli del mondo reale ne limita l'applicabilità pratica. Per affrontare questo problema, introduciamo RealDPO, un nuovo paradigma di allineamento che sfrutta i dati del mondo reale come campioni positivi per l'apprendimento delle preferenze, consentendo una sintesi del movimento più accurata. A differenza del tradizionale fine-tuning supervisionato (SFT), che offre un feedback correttivo limitato, RealDPO utilizza l'ottimizzazione diretta delle preferenze (DPO) con una funzione di perdita personalizzata per migliorare il realismo del movimento. Confrontando video del mondo reale con output errati del modello, RealDPO consente un'auto-correzione iterativa, affinando progressivamente la qualità del movimento. Per supportare il post-addestramento nella sintesi di movimenti complessi, proponiamo RealAction-5K, un dataset curato di video di alta qualità che catturano attività quotidiane umane con dettagli di movimento ricchi e precisi. Esperimenti estensivi dimostrano che RealDPO migliora significativamente la qualità del video, l'allineamento del testo e il realismo del movimento rispetto ai modelli all'avanguardia e alle tecniche esistenti di ottimizzazione delle preferenze.

English

Video generative models have recently achieved notable advancements in synthesis quality. However, generating complex motions remains a critical challenge, as existing models often struggle to produce natural, smooth, and contextually consistent movements. This gap between generated and real-world motions limits their practical applicability. To address this issue, we introduce RealDPO, a novel alignment paradigm that leverages real-world data as positive samples for preference learning, enabling more accurate motion synthesis. Unlike traditional supervised fine-tuning (SFT), which offers limited corrective feedback, RealDPO employs Direct Preference Optimization (DPO) with a tailored loss function to enhance motion realism. By contrasting real-world videos with erroneous model outputs, RealDPO enables iterative self-correction, progressively refining motion quality. To support post-training in complex motion synthesis, we propose RealAction-5K, a curated dataset of high-quality videos capturing human daily activities with rich and precise motion details. Extensive experiments demonstrate that RealDPO significantly improves video quality, text alignment, and motion realism compared to state-of-the-art models and existing preference optimization techniques.

RealDPO: Reale o Non Reale, questa è la Preferenza

RealDPO: Real or Not Real, that is the Preference

Abstract

Support