Interpolación Explorativa del Tiempo y el Espacio
Explorative Inbetweening of Time and Space
March 21, 2024
Autores: Haiwen Feng, Zheng Ding, Zhihao Xia, Simon Niklaus, Victoria Abrevaya, Michael J. Black, Xuaner Zhang
cs.AI
Resumen
Introducimos la generación acotada como una tarea generalizada para controlar la generación de videos con el fin de sintetizar movimientos arbitrarios de cámara y sujetos basándose únicamente en un fotograma inicial y final dados. Nuestro objetivo es aprovechar al máximo la capacidad de generalización inherente de un modelo de imagen a video sin necesidad de entrenamiento adicional o ajuste fino del modelo original. Esto se logra mediante una nueva estrategia de muestreo propuesta, que denominamos Fusión de Inversión Temporal, la cual fusiona las trayectorias de eliminación de ruido hacia adelante y hacia atrás en el tiempo, condicionadas por el fotograma inicial y final, respectivamente. La trayectoria fusionada da como resultado un video que conecta suavemente los dos fotogramas, generando interpolaciones de movimientos fieles del sujeto, vistas novedosas de escenas estáticas y bucles de video perfectos cuando los dos fotogramas límite son idénticos. Hemos creado un conjunto de datos de evaluación diverso con pares de imágenes y lo hemos comparado con los métodos existentes más cercanos. Encontramos que la Fusión de Inversión Temporal supera a los trabajos relacionados en todas las subtareas, demostrando la capacidad de generar movimientos complejos y vistas consistentes en 3D guiadas por fotogramas límite. Consulte la página del proyecto en https://time-reversal.github.io.
English
We introduce bounded generation as a generalized task to control video
generation to synthesize arbitrary camera and subject motion based only on a
given start and end frame. Our objective is to fully leverage the inherent
generalization capability of an image-to-video model without additional
training or fine-tuning of the original model. This is achieved through the
proposed new sampling strategy, which we call Time Reversal Fusion, that fuses
the temporally forward and backward denoising paths conditioned on the start
and end frame, respectively. The fused path results in a video that smoothly
connects the two frames, generating inbetweening of faithful subject motion,
novel views of static scenes, and seamless video looping when the two bounding
frames are identical. We curate a diverse evaluation dataset of image pairs and
compare against the closest existing methods. We find that Time Reversal Fusion
outperforms related work on all subtasks, exhibiting the ability to generate
complex motions and 3D-consistent views guided by bounded frames. See project
page at https://time-reversal.github.io.Summary
AI-Generated Summary