ChatPaper.aiChatPaper

RealDPO: 진짜인가 아닌가, 그것이 선호의 문제다

RealDPO: Real or Not Real, that is the Preference

October 16, 2025
저자: Guo Cheng, Danni Yang, Ziqi Huang, Jianlou Si, Chenyang Si, Ziwei Liu
cs.AI

초록

비디오 생성 모델은 최근 합성 품질 측면에서 주목할 만한 발전을 이루었습니다. 그러나 복잡한 동작을 생성하는 것은 여전히 중요한 과제로 남아 있으며, 기존 모델들은 자연스럽고 부드럽며 문맥적으로 일관된 움직임을 생성하는 데 어려움을 겪고 있습니다. 생성된 동작과 실제 동작 간의 이러한 격차는 모델의 실용적 적용 가능성을 제한합니다. 이 문제를 해결하기 위해, 우리는 실제 데이터를 선호 학습의 긍정적 샘플로 활용하여 보다 정확한 동작 합성을 가능하게 하는 새로운 정렬 패러다임인 RealDPO를 소개합니다. 제한된 수정 피드백만 제공하는 전통적인 지도 미세 조정(SFT)과 달리, RealDPO는 맞춤형 손실 함수를 사용한 직접 선호 최적화(DPO)를 통해 동작의 현실감을 향상시킵니다. 실제 비디오와 모델의 오류 출력을 대조함으로써, RealDPO는 반복적인 자기 수정을 가능하게 하여 동작 품질을 점진적으로 개선합니다. 복잡한 동작 합성을 위한 사후 학습을 지원하기 위해, 우리는 인간의 일상 활동을 풍부하고 정밀한 동작 세부 사항과 함께 담은 고품질 비디오 데이터셋인 RealAction-5K를 제안합니다. 광범위한 실험을 통해 RealDPO가 최첨단 모델 및 기존 선호 최적화 기술에 비해 비디오 품질, 텍스트 정렬, 동작 현실감을 크게 향상시킨다는 것을 입증했습니다.
English
Video generative models have recently achieved notable advancements in synthesis quality. However, generating complex motions remains a critical challenge, as existing models often struggle to produce natural, smooth, and contextually consistent movements. This gap between generated and real-world motions limits their practical applicability. To address this issue, we introduce RealDPO, a novel alignment paradigm that leverages real-world data as positive samples for preference learning, enabling more accurate motion synthesis. Unlike traditional supervised fine-tuning (SFT), which offers limited corrective feedback, RealDPO employs Direct Preference Optimization (DPO) with a tailored loss function to enhance motion realism. By contrasting real-world videos with erroneous model outputs, RealDPO enables iterative self-correction, progressively refining motion quality. To support post-training in complex motion synthesis, we propose RealAction-5K, a curated dataset of high-quality videos capturing human daily activities with rich and precise motion details. Extensive experiments demonstrate that RealDPO significantly improves video quality, text alignment, and motion realism compared to state-of-the-art models and existing preference optimization techniques.
PDF62October 17, 2025