RealDPO: Echt of Niet Echt, dat is de Voorkeur
RealDPO: Real or Not Real, that is the Preference
October 16, 2025
Auteurs: Guo Cheng, Danni Yang, Ziqi Huang, Jianlou Si, Chenyang Si, Ziwei Liu
cs.AI
Samenvatting
Videogeneratieve modellen hebben recentelijk aanzienlijke vooruitgang geboekt in de synthesekwaliteit. Het genereren van complexe bewegingen blijft echter een kritieke uitdaging, aangezien bestaande modellen vaak moeite hebben om natuurlijke, vloeiende en contextueel consistente bewegingen te produceren. Deze kloof tussen gegenereerde en realistische bewegingen beperkt hun praktische toepasbaarheid. Om dit probleem aan te pakken, introduceren we RealDPO, een nieuw uitlijningsparadigma dat gebruikmaakt van real-world data als positieve voorbeelden voor voorkeursleren, waardoor nauwkeurigere bewegingssynthese mogelijk wordt. In tegenstelling tot traditionele supervised fine-tuning (SFT), die beperkte correctieve feedback biedt, maakt RealDPO gebruik van Direct Preference Optimization (DPO) met een op maat gemaakte verliesfunctie om de realiteit van bewegingen te verbeteren. Door real-world video's te contrasteren met foutieve modeluitvoer, maakt RealDPO iteratieve zelfcorrectie mogelijk, waardoor de bewegingskwaliteit geleidelijk wordt verfijnd. Om post-training in complexe bewegingssynthese te ondersteunen, stellen we RealAction-5K voor, een gecureerde dataset van hoogwaardige video's die menselijke dagelijkse activiteiten vastleggen met rijke en precieze bewegingsdetails. Uitgebreide experimenten tonen aan dat RealDPO de videokwaliteit, tekstuitlijning en bewegingsrealisme aanzienlijk verbetert in vergelijking met state-of-the-art modellen en bestaande voorkeursoptimalisatietechnieken.
English
Video generative models have recently achieved notable advancements in
synthesis quality. However, generating complex motions remains a critical
challenge, as existing models often struggle to produce natural, smooth, and
contextually consistent movements. This gap between generated and real-world
motions limits their practical applicability. To address this issue, we
introduce RealDPO, a novel alignment paradigm that leverages real-world data as
positive samples for preference learning, enabling more accurate motion
synthesis. Unlike traditional supervised fine-tuning (SFT), which offers
limited corrective feedback, RealDPO employs Direct Preference Optimization
(DPO) with a tailored loss function to enhance motion realism. By contrasting
real-world videos with erroneous model outputs, RealDPO enables iterative
self-correction, progressively refining motion quality. To support
post-training in complex motion synthesis, we propose RealAction-5K, a curated
dataset of high-quality videos capturing human daily activities with rich and
precise motion details. Extensive experiments demonstrate that RealDPO
significantly improves video quality, text alignment, and motion realism
compared to state-of-the-art models and existing preference optimization
techniques.