ViBiDSampler: Melhorando a Interpolação de Vídeo Usando Amostrador de Difusão Bidirecional
ViBiDSampler: Enhancing Video Interpolation Using Bidirectional Diffusion Sampler
October 8, 2024
Autores: Serin Yang, Taesung Kwon, Jong Chul Ye
cs.AI
Resumo
O progresso recente em modelos de difusão de texto para vídeo em larga escala (T2V) e de imagem para vídeo (I2V) tem aprimorado significativamente a geração de vídeos, especialmente em termos de interpolação de quadros-chave. No entanto, os atuais modelos de difusão de imagem para vídeo, embora potentes na geração de vídeos a partir de um único quadro condicionante, necessitam de adaptação para a geração condicionada de dois quadros (início e fim), o que é essencial para uma interpolação limitada eficaz. Infelizmente, abordagens existentes que fundem caminhos temporais para frente e para trás em paralelo frequentemente sofrem de problemas fora do conjunto, resultando em artefatos ou exigindo múltiplas etapas iterativas de re-ruidificação. Neste trabalho, introduzimos uma estratégia de amostragem bidirecional inovadora para lidar com esses problemas fora do conjunto sem exigir extensa re-ruidificação ou ajuste fino. Nosso método emprega amostragem sequencial ao longo dos caminhos para frente e para trás, condicionados nos quadros de início e fim, respectivamente, garantindo uma geração mais coerente e dentro do conjunto de quadros intermediários. Além disso, incorporamos técnicas avançadas de orientação, CFG++ e DDS, para aprimorar ainda mais o processo de interpolação. Ao integrar essas técnicas, nosso método alcança desempenho de ponta, gerando eficientemente vídeos de alta qualidade e suaves entre quadros-chave. Em uma única GPU 3090, nosso método pode interpolar 25 quadros em resolução de 1024 x 576 em apenas 195 segundos, estabelecendo-o como uma solução líder para interpolação de quadros-chave.
English
Recent progress in large-scale text-to-video (T2V) and image-to-video (I2V)
diffusion models has greatly enhanced video generation, especially in terms of
keyframe interpolation. However, current image-to-video diffusion models, while
powerful in generating videos from a single conditioning frame, need adaptation
for two-frame (start & end) conditioned generation, which is essential for
effective bounded interpolation. Unfortunately, existing approaches that fuse
temporally forward and backward paths in parallel often suffer from
off-manifold issues, leading to artifacts or requiring multiple iterative
re-noising steps. In this work, we introduce a novel, bidirectional sampling
strategy to address these off-manifold issues without requiring extensive
re-noising or fine-tuning. Our method employs sequential sampling along both
forward and backward paths, conditioned on the start and end frames,
respectively, ensuring more coherent and on-manifold generation of intermediate
frames. Additionally, we incorporate advanced guidance techniques, CFG++ and
DDS, to further enhance the interpolation process. By integrating these, our
method achieves state-of-the-art performance, efficiently generating
high-quality, smooth videos between keyframes. On a single 3090 GPU, our method
can interpolate 25 frames at 1024 x 576 resolution in just 195 seconds,
establishing it as a leading solution for keyframe interpolation.Summary
AI-Generated Summary