ChatPaper.aiChatPaper

ViBiDSampler: Migliorare l'Interpolazione Video Utilizzando un Campionatore a Diffusione Bidirezionale

ViBiDSampler: Enhancing Video Interpolation Using Bidirectional Diffusion Sampler

October 8, 2024
Autori: Serin Yang, Taesung Kwon, Jong Chul Ye
cs.AI

Abstract

I recenti progressi nei modelli di diffusione testo-video su larga scala (T2V) e immagine-video (I2V) hanno notevolmente migliorato la generazione di video, specialmente per quanto riguarda l'interpolazione dei frame chiave. Tuttavia, i modelli di diffusione immagine-video attuali, pur essendo potenti nella generazione di video da un singolo frame di condizionamento, necessitano di adattamenti per la generazione condizionata a due frame (inizio e fine), che è essenziale per un'interpolazione limitata efficace. Purtroppo, gli approcci esistenti che fondono percorsi temporali in avanti e all'indietro in parallelo spesso soffrono di problemi off-manifold, che portano a artefatti o richiedono molteplici passaggi iterativi di ri-rumore. In questo lavoro, introduciamo una nuova strategia di campionamento bidirezionale per affrontare questi problemi off-manifold senza richiedere un'estesa ri-rumore o un raffinamento. Il nostro metodo utilizza un campionamento sequenziale lungo entrambi i percorsi in avanti e all'indietro, condizionati rispettivamente ai frame di inizio e fine, garantendo una generazione più coerente e on-manifold dei frame intermedi. Inoltre, incorporiamo tecniche guida avanzate, CFG++ e DDS, per potenziare ulteriormente il processo di interpolazione. Integrando queste tecniche, il nostro metodo raggiunge prestazioni all'avanguardia, generando efficientemente video di alta qualità e fluidi tra i frame chiave. Su una singola GPU 3090, il nostro metodo può interpolare 25 frame a una risoluzione di 1024 x 576 in soli 195 secondi, confermandosi come una soluzione leader per l'interpolazione dei frame chiave.
English
Recent progress in large-scale text-to-video (T2V) and image-to-video (I2V) diffusion models has greatly enhanced video generation, especially in terms of keyframe interpolation. However, current image-to-video diffusion models, while powerful in generating videos from a single conditioning frame, need adaptation for two-frame (start & end) conditioned generation, which is essential for effective bounded interpolation. Unfortunately, existing approaches that fuse temporally forward and backward paths in parallel often suffer from off-manifold issues, leading to artifacts or requiring multiple iterative re-noising steps. In this work, we introduce a novel, bidirectional sampling strategy to address these off-manifold issues without requiring extensive re-noising or fine-tuning. Our method employs sequential sampling along both forward and backward paths, conditioned on the start and end frames, respectively, ensuring more coherent and on-manifold generation of intermediate frames. Additionally, we incorporate advanced guidance techniques, CFG++ and DDS, to further enhance the interpolation process. By integrating these, our method achieves state-of-the-art performance, efficiently generating high-quality, smooth videos between keyframes. On a single 3090 GPU, our method can interpolate 25 frames at 1024 x 576 resolution in just 195 seconds, establishing it as a leading solution for keyframe interpolation.
PDF132November 16, 2024