ChatPaper.aiChatPaper

MultiCOIN : Interpolation vidéo multi-modale contrôlable

MultiCOIN: Multi-Modal COntrollable Video INbetweening

October 9, 2025
papers.authors: Maham Tanveer, Yang Zhou, Simon Niklaus, Ali Mahdavi Amiri, Hao Zhang, Krishna Kumar Singh, Nanxuan Zhao
cs.AI

papers.abstract

L'interpolation vidéo crée des transitions fluides et naturelles entre deux images, en faisant un outil indispensable pour le montage vidéo et la synthèse de vidéos longues. Les travaux existants dans ce domaine sont incapables de générer des mouvements larges, complexes ou détaillés. En particulier, ils ne parviennent pas à s'adapter à la diversité des intentions des utilisateurs et manquent généralement de contrôle fin sur les détails des images intermédiaires, ce qui entraîne un désalignement avec la vision créative. Pour combler ces lacunes, nous présentons MultiCOIN, un cadre d'interpolation vidéo permettant des contrôles multi-modaux, incluant les transitions de profondeur et de superposition, les trajectoires de mouvement, les invites textuelles et les zones cibles pour la localisation du mouvement, tout en maintenant un équilibre entre flexibilité, facilité d'utilisation et précision pour une interpolation vidéo fine. Pour y parvenir, nous adoptons l'architecture Diffusion Transformer (DiT) comme modèle génératif vidéo, en raison de sa capacité avérée à générer des vidéos longues de haute qualité. Pour assurer la compatibilité entre DiT et nos contrôles multi-modaux, nous cartographions tous les contrôles de mouvement dans une représentation commune, éparse et conviviale, basée sur des points, qui sert d'entrée vidéo/bruit. De plus, pour respecter la variété des contrôles qui opèrent à différents niveaux de granularité et d'influence, nous séparons les contrôles de contenu et les contrôles de mouvement en deux branches pour encoder les caractéristiques nécessaires avant de guider le processus de débruitage, ce qui donne lieu à deux générateurs : un pour le mouvement et un autre pour le contenu. Enfin, nous proposons une stratégie d'entraînement par étapes pour garantir que notre modèle apprenne les contrôles multi-modaux de manière fluide. Des expériences qualitatives et quantitatives approfondies démontrent que les contrôles multi-modaux permettent une narration visuelle plus dynamique, personnalisable et contextuellement précise.
English
Video inbetweening creates smooth and natural transitions between two image frames, making it an indispensable tool for video editing and long-form video synthesis. Existing works in this domain are unable to generate large, complex, or intricate motions. In particular, they cannot accommodate the versatility of user intents and generally lack fine control over the details of intermediate frames, leading to misalignment with the creative mind. To fill these gaps, we introduce MultiCOIN, a video inbetweening framework that allows multi-modal controls, including depth transition and layering, motion trajectories, text prompts, and target regions for movement localization, while achieving a balance between flexibility, ease of use, and precision for fine-grained video interpolation. To achieve this, we adopt the Diffusion Transformer (DiT) architecture as our video generative model, due to its proven capability to generate high-quality long videos. To ensure compatibility between DiT and our multi-modal controls, we map all motion controls into a common sparse and user-friendly point-based representation as the video/noise input. Further, to respect the variety of controls which operate at varying levels of granularity and influence, we separate content controls and motion controls into two branches to encode the required features before guiding the denoising process, resulting in two generators, one for motion and the other for content. Finally, we propose a stage-wise training strategy to ensure that our model learns the multi-modal controls smoothly. Extensive qualitative and quantitative experiments demonstrate that multi-modal controls enable a more dynamic, customizable, and contextually accurate visual narrative.
PDF02October 14, 2025