ChatPaper.aiChatPaper

Guidance de saut spatiotemporel pour un échantillonnage amélioré de la diffusion vidéo

Spatiotemporal Skip Guidance for Enhanced Video Diffusion Sampling

November 27, 2024
Auteurs: Junha Hyung, Kinam Kim, Susung Hong, Min-Jung Kim, Jaegul Choo
cs.AI

Résumé

Les modèles de diffusion se sont imposés comme un outil puissant pour générer des images, des vidéos et du contenu 3D de haute qualité. Alors que les techniques de guidage d'échantillonnage telles que CFG améliorent la qualité, elles réduisent la diversité et le mouvement. L'autoguidage atténue ces problèmes mais nécessite une formation supplémentaire d'un modèle faible, limitant sa praticité pour les modèles à grande échelle. Dans ce travail, nous introduisons le Guidage d'Échantillonnage Spatiotemporel (STG), une méthode simple de guidage d'échantillonnage sans formation pour améliorer les modèles de diffusion vidéo basés sur les transformers. STG utilise un modèle faible implicite via auto-perturbation, évitant le besoin de modèles externes ou de formation supplémentaire. En sautant sélectivement des couches spatiotemporelles, STG produit une version alignée et dégradée du modèle original pour améliorer la qualité de l'échantillon sans compromettre la diversité ou le degré dynamique. Nos contributions comprennent : (1) l'introduction de STG en tant que technique de guidage efficace et performante pour les modèles de diffusion vidéo, (2) l'élimination du besoin de modèles auxiliaires en simulant un modèle faible par le saut de couches, et (3) en garantissant un guidage amélioré en qualité sans compromettre la diversité ou la dynamique de l'échantillon contrairement à CFG. Pour des résultats supplémentaires, visitez https://junhahyung.github.io/STGuidance.
English
Diffusion models have emerged as a powerful tool for generating high-quality images, videos, and 3D content. While sampling guidance techniques like CFG improve quality, they reduce diversity and motion. Autoguidance mitigates these issues but demands extra weak model training, limiting its practicality for large-scale models. In this work, we introduce Spatiotemporal Skip Guidance (STG), a simple training-free sampling guidance method for enhancing transformer-based video diffusion models. STG employs an implicit weak model via self-perturbation, avoiding the need for external models or additional training. By selectively skipping spatiotemporal layers, STG produces an aligned, degraded version of the original model to boost sample quality without compromising diversity or dynamic degree. Our contributions include: (1) introducing STG as an efficient, high-performing guidance technique for video diffusion models, (2) eliminating the need for auxiliary models by simulating a weak model through layer skipping, and (3) ensuring quality-enhanced guidance without compromising sample diversity or dynamics unlike CFG. For additional results, visit https://junhahyung.github.io/STGuidance.

Summary

AI-Generated Summary

PDF243December 2, 2024