Reg-DPO: Direct Preference Optimization con Regolarizzazione SFT e GT-Pair per Migliorare la Generazione Video

Abstract

Studi recenti hanno identificato l'Optimizzazione Diretta delle Preferenze (DPO) come un approccio efficiente e privo di ricompensa per migliorare la qualità della generazione video. Tuttavia, i metodi esistenti seguono in gran parte paradigmi propri del dominio delle immagini e sono sviluppati principalmente su modelli di piccola scala (circa 2 miliardi di parametri), limitando la loro capacità di affrontare le sfide uniche dei task video, come la costosa costruzione dei dati, l'addestramento instabile e l'elevato consumo di memoria. Per superare queste limitazioni, introduciamo una GT-Pair che costruisce automaticamente coppie di preferenza di alta qualità utilizzando video reali come positivi e video generati dal modello come negativi, eliminando la necessità di qualsiasi annotazione esterna. Presentiamo inoltre Reg-DPO, che incorpora la perdita SFT come termine di regolarizzazione nell'obiettivo DPO per migliorare la stabilità dell'addestramento e la fedeltà della generazione. Inoltre, combinando il framework FSDP con multiple tecniche di ottimizzazione della memoria, il nostro approccio raggiunge una capacità di addestramento quasi tre volte superiore rispetto all'uso del solo FSDP. Esperimenti estensivi su task sia di I2V che di T2V su diversi dataset dimostrano che il nostro metodo supera costantemente gli approcci esistenti, fornendo una qualità di generazione video superiore.

English

Recent studies have identified Direct Preference Optimization (DPO) as an efficient and reward-free approach to improving video generation quality. However, existing methods largely follow image-domain paradigms and are mainly developed on small-scale models (approximately 2B parameters), limiting their ability to address the unique challenges of video tasks, such as costly data construction, unstable training, and heavy memory consumption. To overcome these limitations, we introduce a GT-Pair that automatically builds high-quality preference pairs by using real videos as positives and model-generated videos as negatives, eliminating the need for any external annotation. We further present Reg-DPO, which incorporates the SFT loss as a regularization term into the DPO objective to enhance training stability and generation fidelity. Additionally, by combining the FSDP framework with multiple memory optimization techniques, our approach achieves nearly three times higher training capacity than using FSDP alone. Extensive experiments on both I2V and T2V tasks across multiple datasets demonstrate that our method consistently outperforms existing approaches, delivering superior video generation quality.

Reg-DPO: Direct Preference Optimization con Regolarizzazione SFT e GT-Pair per Migliorare la Generazione Video

Reg-DPO: SFT-Regularized Direct Preference Optimization with GT-Pair for Improving Video Generation

Abstract

Support