ChatPaper.aiChatPaper

A Regularização Temporal Fortalece Seu Gerador de Vídeos

Temporal Regularization Makes Your Video Generator Stronger

March 19, 2025
Autores: Harold Haodong Chen, Haojian Huang, Xianfeng Wu, Yexin Liu, Yajing Bai, Wen-Jie Shu, Harry Yang, Ser-Nam Lim
cs.AI

Resumo

A qualidade temporal é um aspecto crítico da geração de vídeo, pois garante movimento consistente e dinâmicas realistas entre os quadros. No entanto, alcançar alta coerência e diversidade temporal continua sendo um desafio. Neste trabalho, exploramos pela primeira vez a ampliação temporal na geração de vídeo e introduzimos o FluxFlow para investigação inicial, uma estratégia projetada para aprimorar a qualidade temporal. Operando no nível dos dados, o FluxFlow aplica perturbações temporais controladas sem exigir modificações arquitetônicas. Experimentos extensivos nos benchmarks UCF-101 e VBench demonstram que o FluxFlow melhora significativamente a coerência e a diversidade temporal em vários modelos de geração de vídeo, incluindo arquiteturas baseadas em U-Net, DiT e AR, enquanto preserva a fidelidade espacial. Esses resultados destacam o potencial da ampliação temporal como uma abordagem simples, porém eficaz, para avançar a qualidade da geração de vídeo.
English
Temporal quality is a critical aspect of video generation, as it ensures consistent motion and realistic dynamics across frames. However, achieving high temporal coherence and diversity remains challenging. In this work, we explore temporal augmentation in video generation for the first time, and introduce FluxFlow for initial investigation, a strategy designed to enhance temporal quality. Operating at the data level, FluxFlow applies controlled temporal perturbations without requiring architectural modifications. Extensive experiments on UCF-101 and VBench benchmarks demonstrate that FluxFlow significantly improves temporal coherence and diversity across various video generation models, including U-Net, DiT, and AR-based architectures, while preserving spatial fidelity. These findings highlight the potential of temporal augmentation as a simple yet effective approach to advancing video generation quality.
PDF222March 20, 2025