ChatPaper.aiChatPaper

시간적 정규화가 비디오 생성기를 더 강력하게 만듭니다

Temporal Regularization Makes Your Video Generator Stronger

March 19, 2025
저자: Harold Haodong Chen, Haojian Huang, Xianfeng Wu, Yexin Liu, Yajing Bai, Wen-Jie Shu, Harry Yang, Ser-Nam Lim
cs.AI

초록

시간적 품질은 프레임 간 일관된 움직임과 현실적인 동역학을 보장함으로써 비디오 생성의 중요한 측면입니다. 그러나 높은 시간적 일관성과 다양성을 달성하는 것은 여전히 어려운 과제로 남아 있습니다. 본 연구에서는 비디오 생성에서 시간적 증강을 처음으로 탐구하고, 시간적 품질을 향상시키기 위해 설계된 전략인 FluxFlow를 소개합니다. 데이터 수준에서 작동하는 FluxFlow는 아키텍처 수정 없이도 제어된 시간적 변형을 적용합니다. UCF-101 및 VBench 벤치마크에서의 광범위한 실험을 통해 FluxFlow가 U-Net, DiT, AR 기반 아키텍처를 포함한 다양한 비디오 생성 모델에서 시간적 일관성과 다양성을 크게 향상시키면서도 공간적 충실도를 유지한다는 것을 입증했습니다. 이러한 결과는 시간적 증강이 비디오 생성 품질을 향상시키는 간단하면서도 효과적인 접근법으로서의 잠재력을 강조합니다.
English
Temporal quality is a critical aspect of video generation, as it ensures consistent motion and realistic dynamics across frames. However, achieving high temporal coherence and diversity remains challenging. In this work, we explore temporal augmentation in video generation for the first time, and introduce FluxFlow for initial investigation, a strategy designed to enhance temporal quality. Operating at the data level, FluxFlow applies controlled temporal perturbations without requiring architectural modifications. Extensive experiments on UCF-101 and VBench benchmarks demonstrate that FluxFlow significantly improves temporal coherence and diversity across various video generation models, including U-Net, DiT, and AR-based architectures, while preserving spatial fidelity. These findings highlight the potential of temporal augmentation as a simple yet effective approach to advancing video generation quality.
PDF222March 20, 2025