STAR: テキストからビデオモデルへの空間的時間的拡張を用いた実世界ビデオの超解像度STAR: Spatial-Temporal Augmentation with Text-to-Video Models for
Real-World Video Super-Resolution
画像拡散モデルは、GANベースの手法における過度な平滑化の問題に対処するために、実世界のビデオ超解像度に適応されてきました。ただし、これらのモデルは静止画像でトレーニングされているため、時間的一貫性を維持するのに苦労しており、時間的ダイナミクスを効果的に捉える能力が制限されています。テキストからビデオ(T2V)モデルをビデオ超解像度に統合して時間モデリングを改善することは容易です。ただし、2つの主要な課題が残っています。実世界のシナリオにおける複雑な劣化によって導入されるアーティファクトと、強力なT2Vモデル(例:CogVideoX-5B)の強い生成能力による忠実度の損なわれた点です。修復されたビデオの空間的・時間的品質を向上させるために、私たちは\name(実世界のビデオ超解像度のためのT2Vモデルを活用した空間的・時間的拡張)という新しいアプローチを導入します。これにより、現実的な空間の詳細と堅牢な時間的一貫性が実現されます。具体的には、グローバルアテンションブロックの前にローカル情報強化モジュール(LIEM)を導入して、局所の詳細を豊かにし、劣化アーティファクトを軽減します。さらに、異なる拡散ステップで異なる周波数成分に焦点を当てるようにモデルを誘導するダイナミック周波数(DF)損失を提案します。包括的な実験により、\name が合成および実世界のデータセットの両方で最先端の手法を上回ることが示されました。