ChatPaper.aiChatPaper

Reg-DPO: Optimización Directa de Preferencias Regularizada con SFT y Pares GT para Mejorar la Generación de Vídeo

Reg-DPO: SFT-Regularized Direct Preference Optimization with GT-Pair for Improving Video Generation

November 3, 2025
Autores: Jie Du, Xinyu Gong, Qingshan Tan, Wen Li, Yangming Cheng, Weitao Wang, Chenlu Zhan, Suhui Wu, Hao Zhang, Jun Zhang
cs.AI

Resumen

Estudios recientes han identificado la Optimización Directa de Preferencias (DPO) como un enfoque eficiente y libre de recompensas para mejorar la calidad en la generación de videos. Sin embargo, los métodos existentes siguen en gran medida paradigmas del dominio de las imágenes y se han desarrollado principalmente en modelos de pequeña escala (aproximadamente 2B parámetros), lo que limita su capacidad para abordar los desafíos únicos de las tareas de video, como la costosa construcción de datos, la inestabilidad en el entrenamiento y el alto consumo de memoria. Para superar estas limitaciones, presentamos un GT-Pair que construye automáticamente pares de preferencia de alta calidad utilizando videos reales como positivos y videos generados por el modelo como negativos, eliminando la necesidad de cualquier anotación externa. Además, presentamos Reg-DPO, que incorpora la pérdida SFT como término de regularización en el objetivo de DPO para mejorar la estabilidad del entrenamiento y la fidelidad en la generación. Adicionalmente, al combinar el marco FSDP con múltiples técnicas de optimización de memoria, nuestro enfoque logra una capacidad de entrenamiento casi tres veces mayor que utilizando solo FSDP. Experimentos exhaustivos en tareas de I2V y T2V en múltiples conjuntos de datos demuestran que nuestro método supera consistentemente a los enfoques existentes, ofreciendo una calidad de generación de video superior.
English
Recent studies have identified Direct Preference Optimization (DPO) as an efficient and reward-free approach to improving video generation quality. However, existing methods largely follow image-domain paradigms and are mainly developed on small-scale models (approximately 2B parameters), limiting their ability to address the unique challenges of video tasks, such as costly data construction, unstable training, and heavy memory consumption. To overcome these limitations, we introduce a GT-Pair that automatically builds high-quality preference pairs by using real videos as positives and model-generated videos as negatives, eliminating the need for any external annotation. We further present Reg-DPO, which incorporates the SFT loss as a regularization term into the DPO objective to enhance training stability and generation fidelity. Additionally, by combining the FSDP framework with multiple memory optimization techniques, our approach achieves nearly three times higher training capacity than using FSDP alone. Extensive experiments on both I2V and T2V tasks across multiple datasets demonstrate that our method consistently outperforms existing approaches, delivering superior video generation quality.
PDF11December 2, 2025