高解像度動画生成のための階層的パッチ拡散モデル
Hierarchical Patch Diffusion Models for High-Resolution Video Generation
June 12, 2024
著者: Ivan Skorokhodov, Willi Menapace, Aliaksandr Siarohin, Sergey Tulyakov
cs.AI
要旨
拡散モデルは、画像および動画合成において顕著な性能を発揮してきました。しかし、高解像度入力へのスケーリングは困難であり、拡散パイプラインを複数の独立したコンポーネントに再構築する必要があるため、スケーラビリティが制限され、下流アプリケーションが複雑化します。これにより、トレーニング中に非常に効率的になり、高解像度動画でのエンドツーエンド最適化が可能になります。我々は、PDMを2つの原則的な方法で改善します。まず、パッチ間の一貫性を強化するために、低スケールから高スケールのパッチへと階層的にコンテキスト情報を伝播するアーキテクチャ技術であるディープコンテキストフュージョンを開発しました。次に、トレーニングと推論を加速するために、粗い画像詳細により多くのネットワーク容量と計算を割り当てる適応的計算を提案します。結果として得られたモデルは、UCF-101 256^2におけるクラス条件付き動画生成で、FVDスコア66.32とInceptionスコア87.68という新たな最先端のスコアを達成し、最近の手法を100%以上上回りました。その後、ベースの36×64低解像度ジェネレータから迅速にファインチューニングして、高解像度64×288×512のテキストから動画合成を行うことができることを示します。我々の知る限り、我々のモデルは、このような高解像度で完全にエンドツーエンドでトレーニングされた最初の拡散ベースのアーキテクチャです。プロジェクトウェブページ: https://snap-research.github.io/hpdm。
English
Diffusion models have demonstrated remarkable performance in image and video
synthesis. However, scaling them to high-resolution inputs is challenging and
requires restructuring the diffusion pipeline into multiple independent
components, limiting scalability and complicating downstream applications. This
makes it very efficient during training and unlocks end-to-end optimization on
high-resolution videos. We improve PDMs in two principled ways. First, to
enforce consistency between patches, we develop deep context fusion -- an
architectural technique that propagates the context information from low-scale
to high-scale patches in a hierarchical manner. Second, to accelerate training
and inference, we propose adaptive computation, which allocates more network
capacity and computation towards coarse image details. The resulting model sets
a new state-of-the-art FVD score of 66.32 and Inception Score of 87.68 in
class-conditional video generation on UCF-101 256^2, surpassing recent
methods by more than 100%. Then, we show that it can be rapidly fine-tuned from
a base 36times 64 low-resolution generator for high-resolution 64 times
288 times 512 text-to-video synthesis. To the best of our knowledge, our
model is the first diffusion-based architecture which is trained on such high
resolutions entirely end-to-end. Project webpage:
https://snap-research.github.io/hpdm.