RealDPO: Real ou Não Real, Essa é a Preferência

Resumo

Modelos generativos de vídeo recentemente alcançaram avanços notáveis na qualidade de síntese. No entanto, a geração de movimentos complexos continua sendo um desafio crítico, pois os modelos existentes frequentemente lutam para produzir movimentos naturais, suaves e contextualmente consistentes. Essa lacuna entre movimentos gerados e movimentos do mundo real limita sua aplicabilidade prática. Para abordar essa questão, introduzimos o RealDPO, um novo paradigma de alinhamento que aproveita dados do mundo real como amostras positivas para aprendizado de preferência, permitindo uma síntese de movimento mais precisa. Diferentemente do ajuste fino supervisionado tradicional (SFT), que oferece feedback corretivo limitado, o RealDPO emprega a Otimização Direta de Preferência (DPO) com uma função de perda personalizada para aprimorar o realismo do movimento. Ao contrastar vídeos do mundo real com saídas errôneas do modelo, o RealDPO permite uma autocorreção iterativa, refinando progressivamente a qualidade do movimento. Para suportar o pós-treinamento na síntese de movimentos complexos, propomos o RealAction-5K, um conjunto de dados curado de vídeos de alta qualidade que capturam atividades diárias humanas com detalhes de movimento ricos e precisos. Experimentos extensivos demonstram que o RealDPO melhora significativamente a qualidade do vídeo, o alinhamento de texto e o realismo do movimento em comparação com modelos state-of-the-art e técnicas existentes de otimização de preferência.

English

Video generative models have recently achieved notable advancements in synthesis quality. However, generating complex motions remains a critical challenge, as existing models often struggle to produce natural, smooth, and contextually consistent movements. This gap between generated and real-world motions limits their practical applicability. To address this issue, we introduce RealDPO, a novel alignment paradigm that leverages real-world data as positive samples for preference learning, enabling more accurate motion synthesis. Unlike traditional supervised fine-tuning (SFT), which offers limited corrective feedback, RealDPO employs Direct Preference Optimization (DPO) with a tailored loss function to enhance motion realism. By contrasting real-world videos with erroneous model outputs, RealDPO enables iterative self-correction, progressively refining motion quality. To support post-training in complex motion synthesis, we propose RealAction-5K, a curated dataset of high-quality videos capturing human daily activities with rich and precise motion details. Extensive experiments demonstrate that RealDPO significantly improves video quality, text alignment, and motion realism compared to state-of-the-art models and existing preference optimization techniques.

RealDPO: Real ou Não Real, Essa é a Preferência

RealDPO: Real or Not Real, that is the Preference

Resumo

Support