ChatPaper.aiChatPaper

La régularisation temporelle renforce votre générateur de vidéos.

Temporal Regularization Makes Your Video Generator Stronger

March 19, 2025
Auteurs: Harold Haodong Chen, Haojian Huang, Xianfeng Wu, Yexin Liu, Yajing Bai, Wen-Jie Shu, Harry Yang, Ser-Nam Lim
cs.AI

Résumé

La qualité temporelle est un aspect crucial de la génération vidéo, car elle garantit une cohérence de mouvement et des dynamiques réalistes entre les images. Cependant, atteindre une forte cohérence et diversité temporelles reste un défi. Dans ce travail, nous explorons pour la première fois l'augmentation temporelle dans la génération vidéo et introduisons FluxFlow pour une investigation initiale, une stratégie conçue pour améliorer la qualité temporelle. Opérant au niveau des données, FluxFlow applique des perturbations temporelles contrôlées sans nécessiter de modifications architecturales. Des expériences approfondies sur les benchmarks UCF-101 et VBench démontrent que FluxFlow améliore significativement la cohérence et la diversité temporelles dans divers modèles de génération vidéo, incluant U-Net, DiT et les architectures basées sur AR, tout en préservant la fidélité spatiale. Ces résultats mettent en lumière le potentiel de l'augmentation temporelle comme une approche simple mais efficace pour faire progresser la qualité de la génération vidéo.
English
Temporal quality is a critical aspect of video generation, as it ensures consistent motion and realistic dynamics across frames. However, achieving high temporal coherence and diversity remains challenging. In this work, we explore temporal augmentation in video generation for the first time, and introduce FluxFlow for initial investigation, a strategy designed to enhance temporal quality. Operating at the data level, FluxFlow applies controlled temporal perturbations without requiring architectural modifications. Extensive experiments on UCF-101 and VBench benchmarks demonstrate that FluxFlow significantly improves temporal coherence and diversity across various video generation models, including U-Net, DiT, and AR-based architectures, while preserving spatial fidelity. These findings highlight the potential of temporal augmentation as a simple yet effective approach to advancing video generation quality.

Summary

AI-Generated Summary

PDF222March 20, 2025