ChatPaper.aiChatPaper

Orientação de Saltos Espaço-Temporais para Amostragem Aprimorada de Difusão de Vídeo

Spatiotemporal Skip Guidance for Enhanced Video Diffusion Sampling

November 27, 2024
Autores: Junha Hyung, Kinam Kim, Susung Hong, Min-Jung Kim, Jaegul Choo
cs.AI

Resumo

Os modelos de difusão surgiram como uma ferramenta poderosa para gerar imagens, vídeos e conteúdo 3D de alta qualidade. Enquanto técnicas de orientação de amostragem como CFG melhoram a qualidade, elas reduzem a diversidade e o movimento. A Autoguidance mitiga esses problemas, mas exige treinamento adicional de um modelo fraco, limitando sua praticidade para modelos em grande escala. Neste trabalho, apresentamos o Spatiotemporal Skip Guidance (STG), um método simples de orientação de amostragem sem treinamento para aprimorar modelos de difusão de vídeo baseados em transformadores. O STG emprega um modelo fraco implícito por meio de auto-perturbação, evitando a necessidade de modelos externos ou treinamento adicional. Ao pular seletivamente camadas espaço-temporais, o STG produz uma versão alinhada e degradada do modelo original para aumentar a qualidade da amostra sem comprometer a diversidade ou o grau dinâmico. Nossas contribuições incluem: (1) a introdução do STG como uma técnica de orientação eficiente e de alto desempenho para modelos de difusão de vídeo, (2) a eliminação da necessidade de modelos auxiliares ao simular um modelo fraco por meio do pulo de camadas e (3) garantir orientação aprimorada de qualidade sem comprometer a diversidade ou dinâmica da amostra, ao contrário do CFG. Para resultados adicionais, visite https://junhahyung.github.io/STGuidance.
English
Diffusion models have emerged as a powerful tool for generating high-quality images, videos, and 3D content. While sampling guidance techniques like CFG improve quality, they reduce diversity and motion. Autoguidance mitigates these issues but demands extra weak model training, limiting its practicality for large-scale models. In this work, we introduce Spatiotemporal Skip Guidance (STG), a simple training-free sampling guidance method for enhancing transformer-based video diffusion models. STG employs an implicit weak model via self-perturbation, avoiding the need for external models or additional training. By selectively skipping spatiotemporal layers, STG produces an aligned, degraded version of the original model to boost sample quality without compromising diversity or dynamic degree. Our contributions include: (1) introducing STG as an efficient, high-performing guidance technique for video diffusion models, (2) eliminating the need for auxiliary models by simulating a weak model through layer skipping, and (3) ensuring quality-enhanced guidance without compromising sample diversity or dynamics unlike CFG. For additional results, visit https://junhahyung.github.io/STGuidance.

Summary

AI-Generated Summary

PDF243December 2, 2024