RealDPO: Echt of Niet Echt, dat is de Voorkeur

Samenvatting

Videogeneratieve modellen hebben recentelijk aanzienlijke vooruitgang geboekt in de synthesekwaliteit. Het genereren van complexe bewegingen blijft echter een kritieke uitdaging, aangezien bestaande modellen vaak moeite hebben om natuurlijke, vloeiende en contextueel consistente bewegingen te produceren. Deze kloof tussen gegenereerde en realistische bewegingen beperkt hun praktische toepasbaarheid. Om dit probleem aan te pakken, introduceren we RealDPO, een nieuw uitlijningsparadigma dat gebruikmaakt van real-world data als positieve voorbeelden voor voorkeursleren, waardoor nauwkeurigere bewegingssynthese mogelijk wordt. In tegenstelling tot traditionele supervised fine-tuning (SFT), die beperkte correctieve feedback biedt, maakt RealDPO gebruik van Direct Preference Optimization (DPO) met een op maat gemaakte verliesfunctie om de realiteit van bewegingen te verbeteren. Door real-world video's te contrasteren met foutieve modeluitvoer, maakt RealDPO iteratieve zelfcorrectie mogelijk, waardoor de bewegingskwaliteit geleidelijk wordt verfijnd. Om post-training in complexe bewegingssynthese te ondersteunen, stellen we RealAction-5K voor, een gecureerde dataset van hoogwaardige video's die menselijke dagelijkse activiteiten vastleggen met rijke en precieze bewegingsdetails. Uitgebreide experimenten tonen aan dat RealDPO de videokwaliteit, tekstuitlijning en bewegingsrealisme aanzienlijk verbetert in vergelijking met state-of-the-art modellen en bestaande voorkeursoptimalisatietechnieken.

English

Video generative models have recently achieved notable advancements in synthesis quality. However, generating complex motions remains a critical challenge, as existing models often struggle to produce natural, smooth, and contextually consistent movements. This gap between generated and real-world motions limits their practical applicability. To address this issue, we introduce RealDPO, a novel alignment paradigm that leverages real-world data as positive samples for preference learning, enabling more accurate motion synthesis. Unlike traditional supervised fine-tuning (SFT), which offers limited corrective feedback, RealDPO employs Direct Preference Optimization (DPO) with a tailored loss function to enhance motion realism. By contrasting real-world videos with erroneous model outputs, RealDPO enables iterative self-correction, progressively refining motion quality. To support post-training in complex motion synthesis, we propose RealAction-5K, a curated dataset of high-quality videos capturing human daily activities with rich and precise motion details. Extensive experiments demonstrate that RealDPO significantly improves video quality, text alignment, and motion realism compared to state-of-the-art models and existing preference optimization techniques.

RealDPO: Echt of Niet Echt, dat is de Voorkeur

RealDPO: Real or Not Real, that is the Preference

Samenvatting

Support