ViBiDSampler: Melhorando a Interpolação de Vídeo Usando Amostrador de Difusão Bidirecional

Resumo

O progresso recente em modelos de difusão de texto para vídeo em larga escala (T2V) e de imagem para vídeo (I2V) tem aprimorado significativamente a geração de vídeos, especialmente em termos de interpolação de quadros-chave. No entanto, os atuais modelos de difusão de imagem para vídeo, embora potentes na geração de vídeos a partir de um único quadro condicionante, necessitam de adaptação para a geração condicionada de dois quadros (início e fim), o que é essencial para uma interpolação limitada eficaz. Infelizmente, abordagens existentes que fundem caminhos temporais para frente e para trás em paralelo frequentemente sofrem de problemas fora do conjunto, resultando em artefatos ou exigindo múltiplas etapas iterativas de re-ruidificação. Neste trabalho, introduzimos uma estratégia de amostragem bidirecional inovadora para lidar com esses problemas fora do conjunto sem exigir extensa re-ruidificação ou ajuste fino. Nosso método emprega amostragem sequencial ao longo dos caminhos para frente e para trás, condicionados nos quadros de início e fim, respectivamente, garantindo uma geração mais coerente e dentro do conjunto de quadros intermediários. Além disso, incorporamos técnicas avançadas de orientação, CFG++ e DDS, para aprimorar ainda mais o processo de interpolação. Ao integrar essas técnicas, nosso método alcança desempenho de ponta, gerando eficientemente vídeos de alta qualidade e suaves entre quadros-chave. Em uma única GPU 3090, nosso método pode interpolar 25 quadros em resolução de 1024 x 576 em apenas 195 segundos, estabelecendo-o como uma solução líder para interpolação de quadros-chave.

English

Recent progress in large-scale text-to-video (T2V) and image-to-video (I2V) diffusion models has greatly enhanced video generation, especially in terms of keyframe interpolation. However, current image-to-video diffusion models, while powerful in generating videos from a single conditioning frame, need adaptation for two-frame (start & end) conditioned generation, which is essential for effective bounded interpolation. Unfortunately, existing approaches that fuse temporally forward and backward paths in parallel often suffer from off-manifold issues, leading to artifacts or requiring multiple iterative re-noising steps. In this work, we introduce a novel, bidirectional sampling strategy to address these off-manifold issues without requiring extensive re-noising or fine-tuning. Our method employs sequential sampling along both forward and backward paths, conditioned on the start and end frames, respectively, ensuring more coherent and on-manifold generation of intermediate frames. Additionally, we incorporate advanced guidance techniques, CFG++ and DDS, to further enhance the interpolation process. By integrating these, our method achieves state-of-the-art performance, efficiently generating high-quality, smooth videos between keyframes. On a single 3090 GPU, our method can interpolate 25 frames at 1024 x 576 resolution in just 195 seconds, establishing it as a leading solution for keyframe interpolation.

ViBiDSampler: Melhorando a Interpolação de Vídeo Usando Amostrador de Difusão Bidirecional

ViBiDSampler: Enhancing Video Interpolation Using Bidirectional Diffusion Sampler

Resumo

Support