A Regularização Temporal Fortalece Seu Gerador de Vídeos
Temporal Regularization Makes Your Video Generator Stronger
March 19, 2025
Autores: Harold Haodong Chen, Haojian Huang, Xianfeng Wu, Yexin Liu, Yajing Bai, Wen-Jie Shu, Harry Yang, Ser-Nam Lim
cs.AI
Resumo
A qualidade temporal é um aspecto crítico da geração de vídeo, pois garante movimento consistente e dinâmicas realistas entre os quadros. No entanto, alcançar alta coerência e diversidade temporal continua sendo um desafio. Neste trabalho, exploramos pela primeira vez a ampliação temporal na geração de vídeo e introduzimos o FluxFlow para investigação inicial, uma estratégia projetada para aprimorar a qualidade temporal. Operando no nível dos dados, o FluxFlow aplica perturbações temporais controladas sem exigir modificações arquitetônicas. Experimentos extensivos nos benchmarks UCF-101 e VBench demonstram que o FluxFlow melhora significativamente a coerência e a diversidade temporal em vários modelos de geração de vídeo, incluindo arquiteturas baseadas em U-Net, DiT e AR, enquanto preserva a fidelidade espacial. Esses resultados destacam o potencial da ampliação temporal como uma abordagem simples, porém eficaz, para avançar a qualidade da geração de vídeo.
English
Temporal quality is a critical aspect of video generation, as it ensures
consistent motion and realistic dynamics across frames. However, achieving high
temporal coherence and diversity remains challenging. In this work, we explore
temporal augmentation in video generation for the first time, and introduce
FluxFlow for initial investigation, a strategy designed to enhance temporal
quality. Operating at the data level, FluxFlow applies controlled temporal
perturbations without requiring architectural modifications. Extensive
experiments on UCF-101 and VBench benchmarks demonstrate that FluxFlow
significantly improves temporal coherence and diversity across various video
generation models, including U-Net, DiT, and AR-based architectures, while
preserving spatial fidelity. These findings highlight the potential of temporal
augmentation as a simple yet effective approach to advancing video generation
quality.