高度なビデオ拡散サンプリングのための時空間スキップガイダンス
Spatiotemporal Skip Guidance for Enhanced Video Diffusion Sampling
November 27, 2024
著者: Junha Hyung, Kinam Kim, Susung Hong, Min-Jung Kim, Jaegul Choo
cs.AI
要旨
拡散モデルは、高品質な画像、ビデオ、および3Dコンテンツを生成するための強力なツールとして登場しています。CFGなどのサンプリングガイダンス技術は品質を向上させますが、多様性と動きを減少させます。オートガイダンスはこれらの問題を緩和しますが、追加の弱いモデルトレーニングを必要とし、大規模モデルには実用的ではありません。本研究では、トランスフォーマーベースのビデオ拡散モデルを強化するためのシンプルでトレーニング不要のサンプリングガイダンス方法であるSpatiotemporal Skip Guidance(STG)を紹介します。STGは、自己摂動を介して暗黙の弱いモデルを使用し、外部モデルや追加のトレーニングの必要性を回避します。空間的および時間的レイヤーを選択的にスキップすることで、STGはサンプルの品質を向上させるために元のモデルの整列した劣化バージョンを生成し、多様性や動的度を損なうことなくサンプルの品質を向上させます。私たちの貢献は次の通りです:(1)ビデオ拡散モデル向けの効率的で高性能なガイダンス技術としてSTGを導入すること、(2)レイヤースキップを通じて弱いモデルをシミュレートすることにより、補助モデルの必要性を排除すること、および(3)CFGとは異なり、サンプルの多様性やダイナミクスを損なうことなく品質向上のガイダンスを確保すること。追加の結果については、https://junhahyung.github.io/STGuidance をご覧ください。
English
Diffusion models have emerged as a powerful tool for generating high-quality
images, videos, and 3D content. While sampling guidance techniques like CFG
improve quality, they reduce diversity and motion. Autoguidance mitigates these
issues but demands extra weak model training, limiting its practicality for
large-scale models. In this work, we introduce Spatiotemporal Skip Guidance
(STG), a simple training-free sampling guidance method for enhancing
transformer-based video diffusion models. STG employs an implicit weak model
via self-perturbation, avoiding the need for external models or additional
training. By selectively skipping spatiotemporal layers, STG produces an
aligned, degraded version of the original model to boost sample quality without
compromising diversity or dynamic degree. Our contributions include: (1)
introducing STG as an efficient, high-performing guidance technique for video
diffusion models, (2) eliminating the need for auxiliary models by simulating a
weak model through layer skipping, and (3) ensuring quality-enhanced guidance
without compromising sample diversity or dynamics unlike CFG. For additional
results, visit https://junhahyung.github.io/STGuidance.Summary
AI-Generated Summary