ChatPaper.aiChatPaper

MultiCOIN: Interpolazione Video Multi-Modale Controllabile

MultiCOIN: Multi-Modal COntrollable Video INbetweening

October 9, 2025
Autori: Maham Tanveer, Yang Zhou, Simon Niklaus, Ali Mahdavi Amiri, Hao Zhang, Krishna Kumar Singh, Nanxuan Zhao
cs.AI

Abstract

L'interpolazione video crea transizioni fluide e naturali tra due fotogrammi, rendendola uno strumento indispensabile per l'editing video e la sintesi di video di lunga durata. Le opere esistenti in questo ambito non sono in grado di generare movimenti ampi, complessi o intricati. In particolare, non riescono a soddisfare la versatilità delle intenzioni dell'utente e generalmente mancano di un controllo fine sui dettagli dei fotogrammi intermedi, portando a una disallineamento con la mente creativa. Per colmare queste lacune, introduciamo MultiCOIN, un framework di interpolazione video che consente controlli multi-modali, inclusi transizioni e stratificazioni di profondità, traiettorie di movimento, prompt testuali e regioni target per la localizzazione del movimento, raggiungendo un equilibrio tra flessibilità, facilità d'uso e precisione per l'interpolazione video granulare. Per ottenere ciò, adottiamo l'architettura Diffusion Transformer (DiT) come nostro modello generativo video, grazie alla sua comprovata capacità di generare video lunghi di alta qualità. Per garantire la compatibilità tra DiT e i nostri controlli multi-modali, mappiamo tutti i controlli di movimento in una rappresentazione comune basata su punti sparsi e user-friendly come input video/rumore. Inoltre, per rispettare la varietà di controlli che operano a diversi livelli di granularità e influenza, separiamo i controlli di contenuto e i controlli di movimento in due rami per codificare le caratteristiche necessarie prima di guidare il processo di denoising, ottenendo due generatori, uno per il movimento e l'altro per il contenuto. Infine, proponiamo una strategia di addestramento a stadi per garantire che il nostro modello apprenda i controlli multi-modali in modo fluido. Esperimenti qualitativi e quantitativi estesi dimostrano che i controlli multi-modali consentono una narrazione visiva più dinamica, personalizzabile e contestualmente accurata.
English
Video inbetweening creates smooth and natural transitions between two image frames, making it an indispensable tool for video editing and long-form video synthesis. Existing works in this domain are unable to generate large, complex, or intricate motions. In particular, they cannot accommodate the versatility of user intents and generally lack fine control over the details of intermediate frames, leading to misalignment with the creative mind. To fill these gaps, we introduce MultiCOIN, a video inbetweening framework that allows multi-modal controls, including depth transition and layering, motion trajectories, text prompts, and target regions for movement localization, while achieving a balance between flexibility, ease of use, and precision for fine-grained video interpolation. To achieve this, we adopt the Diffusion Transformer (DiT) architecture as our video generative model, due to its proven capability to generate high-quality long videos. To ensure compatibility between DiT and our multi-modal controls, we map all motion controls into a common sparse and user-friendly point-based representation as the video/noise input. Further, to respect the variety of controls which operate at varying levels of granularity and influence, we separate content controls and motion controls into two branches to encode the required features before guiding the denoising process, resulting in two generators, one for motion and the other for content. Finally, we propose a stage-wise training strategy to ensure that our model learns the multi-modal controls smoothly. Extensive qualitative and quantitative experiments demonstrate that multi-modal controls enable a more dynamic, customizable, and contextually accurate visual narrative.
PDF02October 14, 2025