ビデオガイド:教師のガイドを通じたトレーニングなしでビデオ拡散モデルを改善する
VideoGuide: Improving Video Diffusion Models without Training Through a Teacher's Guide
October 6, 2024
著者: Dohun Lee, Bryan S Kim, Geon Yeong Park, Jong Chul Ye
cs.AI
要旨
テキストから画像への拡散モデル(T2I)は視覚コンテンツの作成を革新しましたが、これらの能力をテキストからビデオへの生成(T2V)に拡張することは、特に時間的一貫性を保持することにおいては課題です。一貫性を向上させる既存の手法は、しばしば画像品質の低下や実用的でない計算時間の犠牲を強いられることがあります。これらの問題に対処するために、追加のトレーニングや微調整を必要とせず、事前にトレーニングされたT2Vモデルの時間的一貫性を向上させる革新的なフレームワークであるVideoGuideを紹介します。代わりに、VideoGuideは、推論の初期段階で任意の事前にトレーニングされたビデオ拡散モデル(VDM)またはそれ自体をガイドとして活用し、ガイドモデルのノイズ除去されたサンプルをサンプリングモデルのノイズ除去プロセスに補間することで、時間的品質を向上させます。提案された手法は、時間的一貫性と画像の忠実度を著しく向上させ、様々なビデオ拡散モデルの強みをシナジー効果的に活用する、費用対効果の高い実用的な解決策を提供します。さらに、先行蒸留を実証し、提案された手法を通じて、ガイドモデルの優れたデータ事前知識を利用することで、基本モデルが強化されたテキストの一貫性を達成できることを示しています。プロジェクトページ:http://videoguide2025.github.io/
English
Text-to-image (T2I) diffusion models have revolutionized visual content
creation, but extending these capabilities to text-to-video (T2V) generation
remains a challenge, particularly in preserving temporal consistency. Existing
methods that aim to improve consistency often cause trade-offs such as reduced
imaging quality and impractical computational time. To address these issues we
introduce VideoGuide, a novel framework that enhances the temporal consistency
of pretrained T2V models without the need for additional training or
fine-tuning. Instead, VideoGuide leverages any pretrained video diffusion model
(VDM) or itself as a guide during the early stages of inference, improving
temporal quality by interpolating the guiding model's denoised samples into the
sampling model's denoising process. The proposed method brings about
significant improvement in temporal consistency and image fidelity, providing a
cost-effective and practical solution that synergizes the strengths of various
video diffusion models. Furthermore, we demonstrate prior distillation,
revealing that base models can achieve enhanced text coherence by utilizing the
superior data prior of the guiding model through the proposed method. Project
Page: http://videoguide2025.github.io/Summary
AI-Generated Summary