A través de la máscara: Trayectorias de movimiento basadas en máscaras para la generación de imagen a video.
Through-The-Mask: Mask-based Motion Trajectories for Image-to-Video Generation
January 6, 2025
Autores: Guy Yariv, Yuval Kirstain, Amit Zohar, Shelly Sheynin, Yaniv Taigman, Yossi Adi, Sagie Benaim, Adam Polyak
cs.AI
Resumen
Consideramos la tarea de generación de Imagen-a-Video (I2V), que implica transformar imágenes estáticas en secuencias de video realistas basadas en una descripción textual. Si bien los avances recientes producen salidas fotorrealistas, a menudo tienen dificultades para crear videos con un movimiento de objetos preciso y consistente, especialmente en escenarios con múltiples objetos. Para abordar estas limitaciones, proponemos un marco compositivo de dos etapas que descompone la generación I2V en: (i) Una etapa de generación de representación intermedia explícita, seguida por (ii) Una etapa de generación de video condicionada a esta representación. Nuestra innovación clave es la introducción de una trayectoria de movimiento basada en máscara como representación intermedia, que captura tanto información semántica de objetos como movimiento, permitiendo una representación expresiva pero compacta de movimiento y semántica. Para incorporar la representación aprendida en la segunda etapa, utilizamos objetivos de atención a nivel de objeto. Específicamente, consideramos un objetivo de atención cruzada enmascarada espacial, por objeto, integrando indicaciones específicas de objetos en regiones correspondientes del espacio latente y un objetivo de auto-atención espacial-temporal enmascarada, asegurando consistencia de fotograma a fotograma para cada objeto. Evaluamos nuestro método en desafiantes benchmarks con escenarios de múltiples objetos y alto movimiento y demostramos empíricamente que el método propuesto logra resultados de vanguardia en coherencia temporal, realismo de movimiento y fidelidad a la descripción de texto. Además, presentamos \benchmark, un nuevo benchmark desafiante para la generación I2V de un solo objeto y múltiples objetos, y demostramos la superioridad de nuestro método en este benchmark. La página del proyecto está disponible en https://guyyariv.github.io/TTM/.
English
We consider the task of Image-to-Video (I2V) generation, which involves
transforming static images into realistic video sequences based on a textual
description. While recent advancements produce photorealistic outputs, they
frequently struggle to create videos with accurate and consistent object
motion, especially in multi-object scenarios. To address these limitations, we
propose a two-stage compositional framework that decomposes I2V generation
into: (i) An explicit intermediate representation generation stage, followed by
(ii) A video generation stage that is conditioned on this representation. Our
key innovation is the introduction of a mask-based motion trajectory as an
intermediate representation, that captures both semantic object information and
motion, enabling an expressive but compact representation of motion and
semantics. To incorporate the learned representation in the second stage, we
utilize object-level attention objectives. Specifically, we consider a spatial,
per-object, masked-cross attention objective, integrating object-specific
prompts into corresponding latent space regions and a masked spatio-temporal
self-attention objective, ensuring frame-to-frame consistency for each object.
We evaluate our method on challenging benchmarks with multi-object and
high-motion scenarios and empirically demonstrate that the proposed method
achieves state-of-the-art results in temporal coherence, motion realism, and
text-prompt faithfulness. Additionally, we introduce \benchmark, a new
challenging benchmark for single-object and multi-object I2V generation, and
demonstrate our method's superiority on this benchmark. Project page is
available at https://guyyariv.github.io/TTM/.Summary
AI-Generated Summary