ChatPaper.aiChatPaper

RealDPO: Реальное или Не Реальное — Вот в чем Предпочтение

RealDPO: Real or Not Real, that is the Preference

October 16, 2025
Авторы: Guo Cheng, Danni Yang, Ziqi Huang, Jianlou Si, Chenyang Si, Ziwei Liu
cs.AI

Аннотация

Видеогенеративные модели в последнее время достигли значительных успехов в качестве синтеза. Однако генерация сложных движений остается серьезной проблемой, поскольку существующие модели часто не способны создавать естественные, плавные и контекстуально согласованные движения. Этот разрыв между сгенерированными и реальными движениями ограничивает их практическую применимость. Для решения этой проблемы мы представляем RealDPO, новую парадигму выравнивания, которая использует реальные данные в качестве положительных образцов для обучения с учетом предпочтений, что позволяет более точно синтезировать движения. В отличие от традиционного контролируемого тонкого настройки (SFT), который предоставляет ограниченную корректирующую обратную связь, RealDPO применяет оптимизацию прямых предпочтений (DPO) с адаптированной функцией потерь для повышения реалистичности движений. Сравнивая реальные видео с ошибочными выходами модели, RealDPO обеспечивает итеративное самокорректирование, постепенно улучшая качество движений. Для поддержки пост-обучения в синтезе сложных движений мы предлагаем RealAction-5K, тщательно отобранный набор данных высококачественных видео, фиксирующих повседневную деятельность человека с богатыми и точными деталями движений. Многочисленные эксперименты демонстрируют, что RealDPO значительно улучшает качество видео, соответствие тексту и реалистичность движений по сравнению с передовыми моделями и существующими методами оптимизации предпочтений.
English
Video generative models have recently achieved notable advancements in synthesis quality. However, generating complex motions remains a critical challenge, as existing models often struggle to produce natural, smooth, and contextually consistent movements. This gap between generated and real-world motions limits their practical applicability. To address this issue, we introduce RealDPO, a novel alignment paradigm that leverages real-world data as positive samples for preference learning, enabling more accurate motion synthesis. Unlike traditional supervised fine-tuning (SFT), which offers limited corrective feedback, RealDPO employs Direct Preference Optimization (DPO) with a tailored loss function to enhance motion realism. By contrasting real-world videos with erroneous model outputs, RealDPO enables iterative self-correction, progressively refining motion quality. To support post-training in complex motion synthesis, we propose RealAction-5K, a curated dataset of high-quality videos capturing human daily activities with rich and precise motion details. Extensive experiments demonstrate that RealDPO significantly improves video quality, text alignment, and motion realism compared to state-of-the-art models and existing preference optimization techniques.
PDF62October 17, 2025