RealDPO: Real ou Não Real, Essa é a Preferência
RealDPO: Real or Not Real, that is the Preference
October 16, 2025
Autores: Guo Cheng, Danni Yang, Ziqi Huang, Jianlou Si, Chenyang Si, Ziwei Liu
cs.AI
Resumo
Modelos generativos de vídeo recentemente alcançaram avanços notáveis na qualidade de síntese. No entanto, a geração de movimentos complexos continua sendo um desafio crítico, pois os modelos existentes frequentemente lutam para produzir movimentos naturais, suaves e contextualmente consistentes. Essa lacuna entre movimentos gerados e movimentos do mundo real limita sua aplicabilidade prática. Para abordar essa questão, introduzimos o RealDPO, um novo paradigma de alinhamento que aproveita dados do mundo real como amostras positivas para aprendizado de preferência, permitindo uma síntese de movimento mais precisa. Diferentemente do ajuste fino supervisionado tradicional (SFT), que oferece feedback corretivo limitado, o RealDPO emprega a Otimização Direta de Preferência (DPO) com uma função de perda personalizada para aprimorar o realismo do movimento. Ao contrastar vídeos do mundo real com saídas errôneas do modelo, o RealDPO permite uma autocorreção iterativa, refinando progressivamente a qualidade do movimento. Para suportar o pós-treinamento na síntese de movimentos complexos, propomos o RealAction-5K, um conjunto de dados curado de vídeos de alta qualidade que capturam atividades diárias humanas com detalhes de movimento ricos e precisos. Experimentos extensivos demonstram que o RealDPO melhora significativamente a qualidade do vídeo, o alinhamento de texto e o realismo do movimento em comparação com modelos state-of-the-art e técnicas existentes de otimização de preferência.
English
Video generative models have recently achieved notable advancements in
synthesis quality. However, generating complex motions remains a critical
challenge, as existing models often struggle to produce natural, smooth, and
contextually consistent movements. This gap between generated and real-world
motions limits their practical applicability. To address this issue, we
introduce RealDPO, a novel alignment paradigm that leverages real-world data as
positive samples for preference learning, enabling more accurate motion
synthesis. Unlike traditional supervised fine-tuning (SFT), which offers
limited corrective feedback, RealDPO employs Direct Preference Optimization
(DPO) with a tailored loss function to enhance motion realism. By contrasting
real-world videos with erroneous model outputs, RealDPO enables iterative
self-correction, progressively refining motion quality. To support
post-training in complex motion synthesis, we propose RealAction-5K, a curated
dataset of high-quality videos capturing human daily activities with rich and
precise motion details. Extensive experiments demonstrate that RealDPO
significantly improves video quality, text alignment, and motion realism
compared to state-of-the-art models and existing preference optimization
techniques.