RealDPO: Real oder nicht real, das ist die Präferenz
RealDPO: Real or Not Real, that is the Preference
October 16, 2025
papers.authors: Guo Cheng, Danni Yang, Ziqi Huang, Jianlou Si, Chenyang Si, Ziwei Liu
cs.AI
papers.abstract
Video-Generative Modelle haben in jüngster Zeit bemerkenswerte Fortschritte in der Synthesequalität erzielt. Dennoch bleibt die Erzeugung komplexer Bewegungen eine kritische Herausforderung, da bestehende Modelle oft Schwierigkeiten haben, natürliche, flüssige und kontextuell konsistente Bewegungen zu erzeugen. Diese Diskrepanz zwischen generierten und realen Bewegungen schränkt ihre praktische Anwendbarkeit ein. Um dieses Problem zu lösen, stellen wir RealDPO vor, ein neuartiges Ausrichtungsparadigma, das reale Daten als positive Beispiele für das Präferenzlernen nutzt und so eine präzisere Bewegungssynthese ermöglicht. Im Gegensatz zum traditionellen überwachten Feinabstimmen (SFT), das nur begrenztes korrigierendes Feedback bietet, verwendet RealDPO Direct Preference Optimization (DPO) mit einer maßgeschneiderten Verlustfunktion, um die Realitätsnähe von Bewegungen zu verbessern. Durch den Vergleich von realen Videos mit fehlerhaften Modellausgaben ermöglicht RealDPO eine iterative Selbstkorrektur, die die Bewegungsqualität schrittweise verfeinert. Um das Nachtraining in der komplexen Bewegungssynthese zu unterstützen, schlagen wir RealAction-5K vor, einen kuratierten Datensatz hochwertiger Videos, die menschliche Alltagsaktivitäten mit reichhaltigen und präzisen Bewegungsdetails erfassen. Umfangreiche Experimente zeigen, dass RealDPO die Videoqualität, die Textausrichtung und die Realitätsnähe von Bewegungen im Vergleich zu modernsten Modellen und bestehenden Präferenzoptimierungstechniken erheblich verbessert.
English
Video generative models have recently achieved notable advancements in
synthesis quality. However, generating complex motions remains a critical
challenge, as existing models often struggle to produce natural, smooth, and
contextually consistent movements. This gap between generated and real-world
motions limits their practical applicability. To address this issue, we
introduce RealDPO, a novel alignment paradigm that leverages real-world data as
positive samples for preference learning, enabling more accurate motion
synthesis. Unlike traditional supervised fine-tuning (SFT), which offers
limited corrective feedback, RealDPO employs Direct Preference Optimization
(DPO) with a tailored loss function to enhance motion realism. By contrasting
real-world videos with erroneous model outputs, RealDPO enables iterative
self-correction, progressively refining motion quality. To support
post-training in complex motion synthesis, we propose RealAction-5K, a curated
dataset of high-quality videos capturing human daily activities with rich and
precise motion details. Extensive experiments demonstrate that RealDPO
significantly improves video quality, text alignment, and motion realism
compared to state-of-the-art models and existing preference optimization
techniques.