ChatPaper.aiChatPaper

RealDPO : Réel ou pas réel, telle est la préférence

RealDPO: Real or Not Real, that is the Preference

October 16, 2025
papers.authors: Guo Cheng, Danni Yang, Ziqi Huang, Jianlou Si, Chenyang Si, Ziwei Liu
cs.AI

papers.abstract

Les modèles génératifs vidéo ont récemment réalisé des avancées notables en termes de qualité de synthèse. Cependant, la génération de mouvements complexes reste un défi critique, car les modèles existants peinent souvent à produire des mouvements naturels, fluides et contextuellement cohérents. Cet écart entre les mouvements générés et ceux du monde réel limite leur applicabilité pratique. Pour résoudre ce problème, nous introduisons RealDPO, un nouveau paradigme d'alignement qui exploite des données réelles comme échantillons positifs pour l'apprentissage par préférence, permettant une synthèse de mouvements plus précise. Contrairement au réglage fin supervisé traditionnel (SFT), qui offre un retour correctif limité, RealDPO utilise l'Optimisation Directe des Préférences (DPO) avec une fonction de perte adaptée pour améliorer le réalisme des mouvements. En confrontant des vidéos du monde réel aux sorties erronées du modèle, RealDPO permet une auto-correction itérative, affinant progressivement la qualité des mouvements. Pour soutenir l'après-entraînement dans la synthèse de mouvements complexes, nous proposons RealAction-5K, un ensemble de données soigneusement sélectionné de vidéos de haute qualité capturant des activités quotidiennes humaines avec des détails de mouvement riches et précis. Des expériences approfondies démontrent que RealDPO améliore significativement la qualité vidéo, l'alignement textuel et le réalisme des mouvements par rapport aux modèles de pointe et aux techniques existantes d'optimisation des préférences.
English
Video generative models have recently achieved notable advancements in synthesis quality. However, generating complex motions remains a critical challenge, as existing models often struggle to produce natural, smooth, and contextually consistent movements. This gap between generated and real-world motions limits their practical applicability. To address this issue, we introduce RealDPO, a novel alignment paradigm that leverages real-world data as positive samples for preference learning, enabling more accurate motion synthesis. Unlike traditional supervised fine-tuning (SFT), which offers limited corrective feedback, RealDPO employs Direct Preference Optimization (DPO) with a tailored loss function to enhance motion realism. By contrasting real-world videos with erroneous model outputs, RealDPO enables iterative self-correction, progressively refining motion quality. To support post-training in complex motion synthesis, we propose RealAction-5K, a curated dataset of high-quality videos capturing human daily activities with rich and precise motion details. Extensive experiments demonstrate that RealDPO significantly improves video quality, text alignment, and motion realism compared to state-of-the-art models and existing preference optimization techniques.
PDF62October 17, 2025