ChatPaper.aiChatPaper

ViBiDSampler: Het verbeteren van video-interpolatie met behulp van een bidirectionele diffusiesampler.

ViBiDSampler: Enhancing Video Interpolation Using Bidirectional Diffusion Sampler

October 8, 2024
Auteurs: Serin Yang, Taesung Kwon, Jong Chul Ye
cs.AI

Samenvatting

Recente vooruitgang in grootschalige tekst-naar-video (T2V) en afbeelding-naar-video (I2V) diffusiemodellen heeft de videogeneratie aanzienlijk verbeterd, vooral op het gebied van keyframe-interpolatie. Huidige afbeelding-naar-video diffusiemodellen, hoewel krachtig in het genereren van video's vanuit een enkel conditioneringsframe, moeten worden aangepast voor tweeframe (start & eind) geconditioneerde generatie, wat essentieel is voor effectieve begrensde interpolatie. Helaas lijden bestaande benaderingen die tijdelijk voorwaartse en achterwaartse paden parallel samenvoegen vaak aan off-manifold problemen, resulterend in artefacten of vereisen meerdere iteratieve her-ruisstappen. In dit werk introduceren we een nieuw, bidirectioneel bemonsteringsstrategie om deze off-manifold problemen aan te pakken zonder uitgebreide her-ruis of fijnafstemming te vereisen. Onze methode maakt gebruik van sequentieel bemonsteren langs zowel voorwaartse als achterwaartse paden, geconditioneerd op de start- en eindframes, wat zorgt voor meer coherente en on-manifold generatie van tussenliggende frames. Daarnaast nemen we geavanceerde begeleidingstechnieken, CFG++ en DDS, op om het interpolatieproces verder te verbeteren. Door deze te integreren, behaalt onze methode state-of-the-art prestaties, waarbij efficiënt hoogwaardige, vloeiende video's tussen keyframes worden gegenereerd. Op een enkele 3090 GPU kan onze methode 25 frames interpoleren op een resolutie van 1024 x 576 in slechts 195 seconden, waarmee het wordt gevestigd als een toonaangevende oplossing voor keyframe-interpolatie.
English
Recent progress in large-scale text-to-video (T2V) and image-to-video (I2V) diffusion models has greatly enhanced video generation, especially in terms of keyframe interpolation. However, current image-to-video diffusion models, while powerful in generating videos from a single conditioning frame, need adaptation for two-frame (start & end) conditioned generation, which is essential for effective bounded interpolation. Unfortunately, existing approaches that fuse temporally forward and backward paths in parallel often suffer from off-manifold issues, leading to artifacts or requiring multiple iterative re-noising steps. In this work, we introduce a novel, bidirectional sampling strategy to address these off-manifold issues without requiring extensive re-noising or fine-tuning. Our method employs sequential sampling along both forward and backward paths, conditioned on the start and end frames, respectively, ensuring more coherent and on-manifold generation of intermediate frames. Additionally, we incorporate advanced guidance techniques, CFG++ and DDS, to further enhance the interpolation process. By integrating these, our method achieves state-of-the-art performance, efficiently generating high-quality, smooth videos between keyframes. On a single 3090 GPU, our method can interpolate 25 frames at 1024 x 576 resolution in just 195 seconds, establishing it as a leading solution for keyframe interpolation.

Summary

AI-Generated Summary

PDF132November 16, 2024