ViBiDSampler: Het verbeteren van video-interpolatie met behulp van een bidirectionele diffusiesampler.
ViBiDSampler: Enhancing Video Interpolation Using Bidirectional Diffusion Sampler
October 8, 2024
Auteurs: Serin Yang, Taesung Kwon, Jong Chul Ye
cs.AI
Samenvatting
Recente vooruitgang in grootschalige tekst-naar-video (T2V) en afbeelding-naar-video (I2V) diffusiemodellen heeft de videogeneratie aanzienlijk verbeterd, vooral op het gebied van keyframe-interpolatie. Huidige afbeelding-naar-video diffusiemodellen, hoewel krachtig in het genereren van video's vanuit een enkel conditioneringsframe, moeten worden aangepast voor tweeframe (start & eind) geconditioneerde generatie, wat essentieel is voor effectieve begrensde interpolatie. Helaas lijden bestaande benaderingen die tijdelijk voorwaartse en achterwaartse paden parallel samenvoegen vaak aan off-manifold problemen, resulterend in artefacten of vereisen meerdere iteratieve her-ruisstappen. In dit werk introduceren we een nieuw, bidirectioneel bemonsteringsstrategie om deze off-manifold problemen aan te pakken zonder uitgebreide her-ruis of fijnafstemming te vereisen. Onze methode maakt gebruik van sequentieel bemonsteren langs zowel voorwaartse als achterwaartse paden, geconditioneerd op de start- en eindframes, wat zorgt voor meer coherente en on-manifold generatie van tussenliggende frames. Daarnaast nemen we geavanceerde begeleidingstechnieken, CFG++ en DDS, op om het interpolatieproces verder te verbeteren. Door deze te integreren, behaalt onze methode state-of-the-art prestaties, waarbij efficiënt hoogwaardige, vloeiende video's tussen keyframes worden gegenereerd. Op een enkele 3090 GPU kan onze methode 25 frames interpoleren op een resolutie van 1024 x 576 in slechts 195 seconden, waarmee het wordt gevestigd als een toonaangevende oplossing voor keyframe-interpolatie.
English
Recent progress in large-scale text-to-video (T2V) and image-to-video (I2V)
diffusion models has greatly enhanced video generation, especially in terms of
keyframe interpolation. However, current image-to-video diffusion models, while
powerful in generating videos from a single conditioning frame, need adaptation
for two-frame (start & end) conditioned generation, which is essential for
effective bounded interpolation. Unfortunately, existing approaches that fuse
temporally forward and backward paths in parallel often suffer from
off-manifold issues, leading to artifacts or requiring multiple iterative
re-noising steps. In this work, we introduce a novel, bidirectional sampling
strategy to address these off-manifold issues without requiring extensive
re-noising or fine-tuning. Our method employs sequential sampling along both
forward and backward paths, conditioned on the start and end frames,
respectively, ensuring more coherent and on-manifold generation of intermediate
frames. Additionally, we incorporate advanced guidance techniques, CFG++ and
DDS, to further enhance the interpolation process. By integrating these, our
method achieves state-of-the-art performance, efficiently generating
high-quality, smooth videos between keyframes. On a single 3090 GPU, our method
can interpolate 25 frames at 1024 x 576 resolution in just 195 seconds,
establishing it as a leading solution for keyframe interpolation.Summary
AI-Generated Summary