ChatPaper.aiChatPaper

SimpleGVR: 潜在カスケード型ビデオ超解像のためのシンプルなベースライン

SimpleGVR: A Simple Baseline for Latent-Cascaded Video Super-Resolution

June 24, 2025
著者: Liangbin Xie, Yu Li, Shian Du, Menghan Xia, Xintao Wang, Fanghua Yu, Ziyan Chen, Pengfei Wan, Jiantao Zhou, Chao Dong
cs.AI

要旨

潜在拡散モデルは、効率的なビデオ生成の主要なパラダイムとして登場しました。しかし、ユーザーの期待が高解像度出力へと移行するにつれ、潜在空間での計算のみに依存するのは不十分となっています。有望なアプローチとして、プロセスを2段階に分離する方法があります。すなわち、意味的コンテンツ生成と詳細合成です。前者では、低解像度で計算集約的なベースモデルを使用し、後者では軽量なカスケード型ビデオ超解像(VSR)モデルを活用して高解像度出力を実現します。本研究では、現在十分に研究されていない後者のカスケード型VSRモデルの設計原則に焦点を当てます。まず、ベースモデルの出力特性をより適切に模倣するトレーニングペアを生成するための2つの劣化戦略を提案し、VSRモデルとその上流の生成器との整合性を確保します。次に、(1)タイムステップサンプリング戦略、(2)低解像度(LR)入力に対するノイズ拡張効果の系統的な分析を通じて、VSRモデルの動作に関する重要な洞察を提供します。これらの知見は、アーキテクチャとトレーニングの革新に直接寄与します。最後に、効率的なトレーニングと推論を実現するために、インタリーブ時間単位とスパースローカルアテンションを導入し、計算オーバーヘッドを大幅に削減します。広範な実験により、我々のフレームワークが既存の手法を凌駕することを示し、アブレーションスタディにより各設計選択の有効性を確認しました。本研究は、カスケード型ビデオ超解像生成のためのシンプルかつ効果的なベースラインを確立し、効率的なカスケード合成システムの将来の発展を導く実践的な洞察を提供します。
English
Latent diffusion models have emerged as a leading paradigm for efficient video generation. However, as user expectations shift toward higher-resolution outputs, relying solely on latent computation becomes inadequate. A promising approach involves decoupling the process into two stages: semantic content generation and detail synthesis. The former employs a computationally intensive base model at lower resolutions, while the latter leverages a lightweight cascaded video super-resolution (VSR) model to achieve high-resolution output. In this work, we focus on studying key design principles for latter cascaded VSR models, which are underexplored currently. First, we propose two degradation strategies to generate training pairs that better mimic the output characteristics of the base model, ensuring alignment between the VSR model and its upstream generator. Second, we provide critical insights into VSR model behavior through systematic analysis of (1) timestep sampling strategies, (2) noise augmentation effects on low-resolution (LR) inputs. These findings directly inform our architectural and training innovations. Finally, we introduce interleaving temporal unit and sparse local attention to achieve efficient training and inference, drastically reducing computational overhead. Extensive experiments demonstrate the superiority of our framework over existing methods, with ablation studies confirming the efficacy of each design choice. Our work establishes a simple yet effective baseline for cascaded video super-resolution generation, offering practical insights to guide future advancements in efficient cascaded synthesis systems.
PDF91June 25, 2025