MultiCOIN: Interpolación de Video Multimodal Controlable
MultiCOIN: Multi-Modal COntrollable Video INbetweening
October 9, 2025
Autores: Maham Tanveer, Yang Zhou, Simon Niklaus, Ali Mahdavi Amiri, Hao Zhang, Krishna Kumar Singh, Nanxuan Zhao
cs.AI
Resumen
El intercalado de video crea transiciones suaves y naturales entre dos fotogramas de imagen, convirtiéndolo en una herramienta indispensable para la edición de video y la síntesis de videos de larga duración. Los trabajos existentes en este dominio no pueden generar movimientos grandes, complejos o intrincados. En particular, no logran adaptarse a la versatilidad de las intenciones del usuario y generalmente carecen de un control detallado sobre los fotogramas intermedios, lo que resulta en una desalineación con la mente creativa. Para abordar estas limitaciones, presentamos MultiCOIN, un marco de intercalado de video que permite controles multimodales, incluyendo transiciones de profundidad y capas, trayectorias de movimiento, indicaciones de texto y regiones objetivo para la localización del movimiento, logrando un equilibrio entre flexibilidad, facilidad de uso y precisión para la interpolación de video detallada. Para lograrlo, adoptamos la arquitectura Diffusion Transformer (DiT) como nuestro modelo generativo de video, debido a su capacidad comprobada para generar videos largos de alta calidad. Para garantizar la compatibilidad entre DiT y nuestros controles multimodales, mapeamos todos los controles de movimiento en una representación común basada en puntos, escasa y fácil de usar, como entrada de video/ruido. Además, para respetar la variedad de controles que operan en diferentes niveles de granularidad e influencia, separamos los controles de contenido y los controles de movimiento en dos ramas para codificar las características necesarias antes de guiar el proceso de eliminación de ruido, resultando en dos generadores: uno para el movimiento y otro para el contenido. Finalmente, proponemos una estrategia de entrenamiento por etapas para asegurar que nuestro modelo aprenda los controles multimodales de manera fluida. Experimentos cualitativos y cuantitativos exhaustivos demuestran que los controles multimodales permiten una narrativa visual más dinámica, personalizable y contextualmente precisa.
English
Video inbetweening creates smooth and natural transitions between two image
frames, making it an indispensable tool for video editing and long-form video
synthesis. Existing works in this domain are unable to generate large, complex,
or intricate motions. In particular, they cannot accommodate the versatility of
user intents and generally lack fine control over the details of intermediate
frames, leading to misalignment with the creative mind. To fill these gaps, we
introduce MultiCOIN, a video inbetweening framework that allows multi-modal
controls, including depth transition and layering, motion trajectories, text
prompts, and target regions for movement localization, while achieving a
balance between flexibility, ease of use, and precision for fine-grained video
interpolation. To achieve this, we adopt the Diffusion Transformer (DiT)
architecture as our video generative model, due to its proven capability to
generate high-quality long videos. To ensure compatibility between DiT and our
multi-modal controls, we map all motion controls into a common sparse and
user-friendly point-based representation as the video/noise input. Further, to
respect the variety of controls which operate at varying levels of granularity
and influence, we separate content controls and motion controls into two
branches to encode the required features before guiding the denoising process,
resulting in two generators, one for motion and the other for content. Finally,
we propose a stage-wise training strategy to ensure that our model learns the
multi-modal controls smoothly. Extensive qualitative and quantitative
experiments demonstrate that multi-modal controls enable a more dynamic,
customizable, and contextually accurate visual narrative.