La régularisation temporelle renforce votre générateur de vidéos.
Temporal Regularization Makes Your Video Generator Stronger
March 19, 2025
Auteurs: Harold Haodong Chen, Haojian Huang, Xianfeng Wu, Yexin Liu, Yajing Bai, Wen-Jie Shu, Harry Yang, Ser-Nam Lim
cs.AI
Résumé
La qualité temporelle est un aspect crucial de la génération vidéo, car elle garantit une cohérence de mouvement et des dynamiques réalistes entre les images. Cependant, atteindre une forte cohérence et diversité temporelles reste un défi. Dans ce travail, nous explorons pour la première fois l'augmentation temporelle dans la génération vidéo et introduisons FluxFlow pour une investigation initiale, une stratégie conçue pour améliorer la qualité temporelle. Opérant au niveau des données, FluxFlow applique des perturbations temporelles contrôlées sans nécessiter de modifications architecturales. Des expériences approfondies sur les benchmarks UCF-101 et VBench démontrent que FluxFlow améliore significativement la cohérence et la diversité temporelles dans divers modèles de génération vidéo, incluant U-Net, DiT et les architectures basées sur AR, tout en préservant la fidélité spatiale. Ces résultats mettent en lumière le potentiel de l'augmentation temporelle comme une approche simple mais efficace pour faire progresser la qualité de la génération vidéo.
English
Temporal quality is a critical aspect of video generation, as it ensures
consistent motion and realistic dynamics across frames. However, achieving high
temporal coherence and diversity remains challenging. In this work, we explore
temporal augmentation in video generation for the first time, and introduce
FluxFlow for initial investigation, a strategy designed to enhance temporal
quality. Operating at the data level, FluxFlow applies controlled temporal
perturbations without requiring architectural modifications. Extensive
experiments on UCF-101 and VBench benchmarks demonstrate that FluxFlow
significantly improves temporal coherence and diversity across various video
generation models, including U-Net, DiT, and AR-based architectures, while
preserving spatial fidelity. These findings highlight the potential of temporal
augmentation as a simple yet effective approach to advancing video generation
quality.Summary
AI-Generated Summary