Reg-DPO: Optimización Directa de Preferencias Regularizada con SFT y Pares GT para Mejorar la Generación de Vídeo
Reg-DPO: SFT-Regularized Direct Preference Optimization with GT-Pair for Improving Video Generation
November 3, 2025
Autores: Jie Du, Xinyu Gong, Qingshan Tan, Wen Li, Yangming Cheng, Weitao Wang, Chenlu Zhan, Suhui Wu, Hao Zhang, Jun Zhang
cs.AI
Resumen
Estudios recientes han identificado la Optimización Directa de Preferencias (DPO) como un enfoque eficiente y libre de recompensas para mejorar la calidad en la generación de videos. Sin embargo, los métodos existentes siguen en gran medida paradigmas del dominio de las imágenes y se han desarrollado principalmente en modelos de pequeña escala (aproximadamente 2B parámetros), lo que limita su capacidad para abordar los desafíos únicos de las tareas de video, como la costosa construcción de datos, la inestabilidad en el entrenamiento y el alto consumo de memoria. Para superar estas limitaciones, presentamos un GT-Pair que construye automáticamente pares de preferencia de alta calidad utilizando videos reales como positivos y videos generados por el modelo como negativos, eliminando la necesidad de cualquier anotación externa. Además, presentamos Reg-DPO, que incorpora la pérdida SFT como término de regularización en el objetivo de DPO para mejorar la estabilidad del entrenamiento y la fidelidad en la generación. Adicionalmente, al combinar el marco FSDP con múltiples técnicas de optimización de memoria, nuestro enfoque logra una capacidad de entrenamiento casi tres veces mayor que utilizando solo FSDP. Experimentos exhaustivos en tareas de I2V y T2V en múltiples conjuntos de datos demuestran que nuestro método supera consistentemente a los enfoques existentes, ofreciendo una calidad de generación de video superior.
English
Recent studies have identified Direct Preference Optimization (DPO) as an
efficient and reward-free approach to improving video generation quality.
However, existing methods largely follow image-domain paradigms and are mainly
developed on small-scale models (approximately 2B parameters), limiting their
ability to address the unique challenges of video tasks, such as costly data
construction, unstable training, and heavy memory consumption. To overcome
these limitations, we introduce a GT-Pair that automatically builds
high-quality preference pairs by using real videos as positives and
model-generated videos as negatives, eliminating the need for any external
annotation. We further present Reg-DPO, which incorporates the SFT loss as a
regularization term into the DPO objective to enhance training stability and
generation fidelity. Additionally, by combining the FSDP framework with
multiple memory optimization techniques, our approach achieves nearly three
times higher training capacity than using FSDP alone. Extensive experiments on
both I2V and T2V tasks across multiple datasets demonstrate that our method
consistently outperforms existing approaches, delivering superior video
generation quality.