ChatPaper.aiChatPaper

RealDPO: Real oder nicht real, das ist die Präferenz

RealDPO: Real or Not Real, that is the Preference

October 16, 2025
papers.authors: Guo Cheng, Danni Yang, Ziqi Huang, Jianlou Si, Chenyang Si, Ziwei Liu
cs.AI

papers.abstract

Video-Generative Modelle haben in jüngster Zeit bemerkenswerte Fortschritte in der Synthesequalität erzielt. Dennoch bleibt die Erzeugung komplexer Bewegungen eine kritische Herausforderung, da bestehende Modelle oft Schwierigkeiten haben, natürliche, flüssige und kontextuell konsistente Bewegungen zu erzeugen. Diese Diskrepanz zwischen generierten und realen Bewegungen schränkt ihre praktische Anwendbarkeit ein. Um dieses Problem zu lösen, stellen wir RealDPO vor, ein neuartiges Ausrichtungsparadigma, das reale Daten als positive Beispiele für das Präferenzlernen nutzt und so eine präzisere Bewegungssynthese ermöglicht. Im Gegensatz zum traditionellen überwachten Feinabstimmen (SFT), das nur begrenztes korrigierendes Feedback bietet, verwendet RealDPO Direct Preference Optimization (DPO) mit einer maßgeschneiderten Verlustfunktion, um die Realitätsnähe von Bewegungen zu verbessern. Durch den Vergleich von realen Videos mit fehlerhaften Modellausgaben ermöglicht RealDPO eine iterative Selbstkorrektur, die die Bewegungsqualität schrittweise verfeinert. Um das Nachtraining in der komplexen Bewegungssynthese zu unterstützen, schlagen wir RealAction-5K vor, einen kuratierten Datensatz hochwertiger Videos, die menschliche Alltagsaktivitäten mit reichhaltigen und präzisen Bewegungsdetails erfassen. Umfangreiche Experimente zeigen, dass RealDPO die Videoqualität, die Textausrichtung und die Realitätsnähe von Bewegungen im Vergleich zu modernsten Modellen und bestehenden Präferenzoptimierungstechniken erheblich verbessert.
English
Video generative models have recently achieved notable advancements in synthesis quality. However, generating complex motions remains a critical challenge, as existing models often struggle to produce natural, smooth, and contextually consistent movements. This gap between generated and real-world motions limits their practical applicability. To address this issue, we introduce RealDPO, a novel alignment paradigm that leverages real-world data as positive samples for preference learning, enabling more accurate motion synthesis. Unlike traditional supervised fine-tuning (SFT), which offers limited corrective feedback, RealDPO employs Direct Preference Optimization (DPO) with a tailored loss function to enhance motion realism. By contrasting real-world videos with erroneous model outputs, RealDPO enables iterative self-correction, progressively refining motion quality. To support post-training in complex motion synthesis, we propose RealAction-5K, a curated dataset of high-quality videos capturing human daily activities with rich and precise motion details. Extensive experiments demonstrate that RealDPO significantly improves video quality, text alignment, and motion realism compared to state-of-the-art models and existing preference optimization techniques.
PDF62October 17, 2025