Reg-DPO: Direct Preference Optimization con Regolarizzazione SFT e GT-Pair per Migliorare la Generazione Video
Reg-DPO: SFT-Regularized Direct Preference Optimization with GT-Pair for Improving Video Generation
November 3, 2025
Autori: Jie Du, Xinyu Gong, Qingshan Tan, Wen Li, Yangming Cheng, Weitao Wang, Chenlu Zhan, Suhui Wu, Hao Zhang, Jun Zhang
cs.AI
Abstract
Studi recenti hanno identificato l'Optimizzazione Diretta delle Preferenze (DPO) come un approccio efficiente e privo di ricompensa per migliorare la qualità della generazione video. Tuttavia, i metodi esistenti seguono in gran parte paradigmi propri del dominio delle immagini e sono sviluppati principalmente su modelli di piccola scala (circa 2 miliardi di parametri), limitando la loro capacità di affrontare le sfide uniche dei task video, come la costosa costruzione dei dati, l'addestramento instabile e l'elevato consumo di memoria. Per superare queste limitazioni, introduciamo una GT-Pair che costruisce automaticamente coppie di preferenza di alta qualità utilizzando video reali come positivi e video generati dal modello come negativi, eliminando la necessità di qualsiasi annotazione esterna. Presentiamo inoltre Reg-DPO, che incorpora la perdita SFT come termine di regolarizzazione nell'obiettivo DPO per migliorare la stabilità dell'addestramento e la fedeltà della generazione. Inoltre, combinando il framework FSDP con multiple tecniche di ottimizzazione della memoria, il nostro approccio raggiunge una capacità di addestramento quasi tre volte superiore rispetto all'uso del solo FSDP. Esperimenti estensivi su task sia di I2V che di T2V su diversi dataset dimostrano che il nostro metodo supera costantemente gli approcci esistenti, fornendo una qualità di generazione video superiore.
English
Recent studies have identified Direct Preference Optimization (DPO) as an
efficient and reward-free approach to improving video generation quality.
However, existing methods largely follow image-domain paradigms and are mainly
developed on small-scale models (approximately 2B parameters), limiting their
ability to address the unique challenges of video tasks, such as costly data
construction, unstable training, and heavy memory consumption. To overcome
these limitations, we introduce a GT-Pair that automatically builds
high-quality preference pairs by using real videos as positives and
model-generated videos as negatives, eliminating the need for any external
annotation. We further present Reg-DPO, which incorporates the SFT loss as a
regularization term into the DPO objective to enhance training stability and
generation fidelity. Additionally, by combining the FSDP framework with
multiple memory optimization techniques, our approach achieves nearly three
times higher training capacity than using FSDP alone. Extensive experiments on
both I2V and T2V tasks across multiple datasets demonstrate that our method
consistently outperforms existing approaches, delivering superior video
generation quality.