ChatPaper.aiChatPaper

Reg-DPO: 비디오 생성 향상을 위한 GT-Pair 기반 SFT 정규화 직접 선호도 최적화

Reg-DPO: SFT-Regularized Direct Preference Optimization with GT-Pair for Improving Video Generation

November 3, 2025
저자: Jie Du, Xinyu Gong, Qingshan Tan, Wen Li, Yangming Cheng, Weitao Wang, Chenlu Zhan, Suhui Wu, Hao Zhang, Jun Zhang
cs.AI

초록

최근 연구들은 비디오 생성 품질 향상을 위한 효율적이고 보상이 필요 없는 접근법으로 직접 선호도 최적화(DPO)를 주목하고 있습니다. 그러나 기존 방법들은 대부분 이미지 도메인 패러다임을 따르며 소규모 모델(약 20억 매개변수) 위주로 개발되어, 비용이 많이 드는 데이터 구축, 불안정한 학습, 과도한 메모리 소비와 같은 비디오 작업의 고유한 문제를 해결하는 데 한계가 있습니다. 이러한 한계를 극복하기 위해 우리는 실제 비디오를 긍정적 샘플로, 모델 생성 비디오를 부정적 샘플로 사용하여 고품질 선호도 쌍을 자동으로 구축하는 GT-Pair를 도입하여 외부 주석의 필요성을 제거했습니다. 또한 학습 안정성과 생성 충실도를 향상시키기 위해 SFT 손실을 DPO 목적함수에 정규화 항으로 통합한 Reg-DPO를 제안합니다. 여기에 FSDP 프레임워크와 여러 메모리 최적화 기법을 결합함으로써 우리의 접근법은 FSDP 단독 사용 대비 약 3배 높은 학습 용량을 달성했습니다. 다양한 데이터셋에서 이미지-투-비디오(I2V) 및 텍스트-투-비디오(T2V) 작업에 대한 폭넓은 실험을 통해 우리 방법이 기존 접근법을 지속적으로 능가하며 우수한 비디오 생성 품질을 제공함을 입증했습니다.
English
Recent studies have identified Direct Preference Optimization (DPO) as an efficient and reward-free approach to improving video generation quality. However, existing methods largely follow image-domain paradigms and are mainly developed on small-scale models (approximately 2B parameters), limiting their ability to address the unique challenges of video tasks, such as costly data construction, unstable training, and heavy memory consumption. To overcome these limitations, we introduce a GT-Pair that automatically builds high-quality preference pairs by using real videos as positives and model-generated videos as negatives, eliminating the need for any external annotation. We further present Reg-DPO, which incorporates the SFT loss as a regularization term into the DPO objective to enhance training stability and generation fidelity. Additionally, by combining the FSDP framework with multiple memory optimization techniques, our approach achieves nearly three times higher training capacity than using FSDP alone. Extensive experiments on both I2V and T2V tasks across multiple datasets demonstrate that our method consistently outperforms existing approaches, delivering superior video generation quality.
PDF11December 2, 2025