ChatPaper.aiChatPaper

高解像度動画生成のための階層的パッチ拡散モデル

Hierarchical Patch Diffusion Models for High-Resolution Video Generation

June 12, 2024
著者: Ivan Skorokhodov, Willi Menapace, Aliaksandr Siarohin, Sergey Tulyakov
cs.AI

要旨

拡散モデルは、画像および動画合成において顕著な性能を発揮してきました。しかし、高解像度入力へのスケーリングは困難であり、拡散パイプラインを複数の独立したコンポーネントに再構築する必要があるため、スケーラビリティが制限され、下流アプリケーションが複雑化します。これにより、トレーニング中に非常に効率的になり、高解像度動画でのエンドツーエンド最適化が可能になります。我々は、PDMを2つの原則的な方法で改善します。まず、パッチ間の一貫性を強化するために、低スケールから高スケールのパッチへと階層的にコンテキスト情報を伝播するアーキテクチャ技術であるディープコンテキストフュージョンを開発しました。次に、トレーニングと推論を加速するために、粗い画像詳細により多くのネットワーク容量と計算を割り当てる適応的計算を提案します。結果として得られたモデルは、UCF-101 256^2におけるクラス条件付き動画生成で、FVDスコア66.32とInceptionスコア87.68という新たな最先端のスコアを達成し、最近の手法を100%以上上回りました。その後、ベースの36×64低解像度ジェネレータから迅速にファインチューニングして、高解像度64×288×512のテキストから動画合成を行うことができることを示します。我々の知る限り、我々のモデルは、このような高解像度で完全にエンドツーエンドでトレーニングされた最初の拡散ベースのアーキテクチャです。プロジェクトウェブページ: https://snap-research.github.io/hpdm。
English
Diffusion models have demonstrated remarkable performance in image and video synthesis. However, scaling them to high-resolution inputs is challenging and requires restructuring the diffusion pipeline into multiple independent components, limiting scalability and complicating downstream applications. This makes it very efficient during training and unlocks end-to-end optimization on high-resolution videos. We improve PDMs in two principled ways. First, to enforce consistency between patches, we develop deep context fusion -- an architectural technique that propagates the context information from low-scale to high-scale patches in a hierarchical manner. Second, to accelerate training and inference, we propose adaptive computation, which allocates more network capacity and computation towards coarse image details. The resulting model sets a new state-of-the-art FVD score of 66.32 and Inception Score of 87.68 in class-conditional video generation on UCF-101 256^2, surpassing recent methods by more than 100%. Then, we show that it can be rapidly fine-tuned from a base 36times 64 low-resolution generator for high-resolution 64 times 288 times 512 text-to-video synthesis. To the best of our knowledge, our model is the first diffusion-based architecture which is trained on such high resolutions entirely end-to-end. Project webpage: https://snap-research.github.io/hpdm.
PDF160December 8, 2024