ChatPaper.aiChatPaper

Orientación de Salto Espaciotemporal para una Muestra de Difusión de Video Mejorada

Spatiotemporal Skip Guidance for Enhanced Video Diffusion Sampling

November 27, 2024
Autores: Junha Hyung, Kinam Kim, Susung Hong, Min-Jung Kim, Jaegul Choo
cs.AI

Resumen

Los modelos de difusión han surgido como una herramienta poderosa para generar imágenes, videos y contenido 3D de alta calidad. Si bien las técnicas de orientación de muestreo como CFG mejoran la calidad, reducen la diversidad y el movimiento. La autoguía mitiga estos problemas, pero requiere un entrenamiento adicional de un modelo débil, lo que limita su practicidad para modelos a gran escala. En este trabajo, presentamos la Guía de Salto Espaciotemporal (STG), un método de orientación de muestreo simple y sin entrenamiento para mejorar los modelos de difusión de video basados en transformadores. STG emplea un modelo débil implícito a través de la auto-perturbación, evitando la necesidad de modelos externos o entrenamiento adicional. Al omitir selectivamente capas espaciotemporales, STG produce una versión alineada y degradada del modelo original para mejorar la calidad de la muestra sin comprometer la diversidad o el grado dinámico. Nuestras contribuciones incluyen: (1) la introducción de STG como una técnica de orientación eficiente y de alto rendimiento para modelos de difusión de video, (2) la eliminación de la necesidad de modelos auxiliares al simular un modelo débil a través de la omisión de capas, y (3) garantizar una orientación mejorada en calidad sin comprometer la diversidad o la dinámica de la muestra, a diferencia de CFG. Para obtener resultados adicionales, visite https://junhahyung.github.io/STGuidance.
English
Diffusion models have emerged as a powerful tool for generating high-quality images, videos, and 3D content. While sampling guidance techniques like CFG improve quality, they reduce diversity and motion. Autoguidance mitigates these issues but demands extra weak model training, limiting its practicality for large-scale models. In this work, we introduce Spatiotemporal Skip Guidance (STG), a simple training-free sampling guidance method for enhancing transformer-based video diffusion models. STG employs an implicit weak model via self-perturbation, avoiding the need for external models or additional training. By selectively skipping spatiotemporal layers, STG produces an aligned, degraded version of the original model to boost sample quality without compromising diversity or dynamic degree. Our contributions include: (1) introducing STG as an efficient, high-performing guidance technique for video diffusion models, (2) eliminating the need for auxiliary models by simulating a weak model through layer skipping, and (3) ensuring quality-enhanced guidance without compromising sample diversity or dynamics unlike CFG. For additional results, visit https://junhahyung.github.io/STGuidance.

Summary

AI-Generated Summary

PDF243December 2, 2024