ChatPaper.aiChatPaper

MultiCOIN: Multi-modale Controleerbare Video Tussenvoeging

MultiCOIN: Multi-Modal COntrollable Video INbetweening

October 9, 2025
Auteurs: Maham Tanveer, Yang Zhou, Simon Niklaus, Ali Mahdavi Amiri, Hao Zhang, Krishna Kumar Singh, Nanxuan Zhao
cs.AI

Samenvatting

Video inbetweening creëert vloeiende en natuurlijke overgangen tussen twee beeldframes, waardoor het een onmisbaar hulpmiddel is voor videobewerking en de synthese van lange video's. Bestaande werken in dit domein zijn niet in staat om grote, complexe of ingewikkelde bewegingen te genereren. In het bijzonder kunnen ze niet omgaan met de veelzijdigheid van gebruikersintenties en missen ze over het algemeen fijne controle over de details van tussenliggende frames, wat leidt tot een gebrek aan afstemming met het creatieve denken. Om deze leemtes op te vullen, introduceren we MultiCOIN, een video inbetweening-framework dat multi-modale controles mogelijk maakt, waaronder diepteovergangen en lagen, bewegingsbanen, tekstprompts en doelgebieden voor bewegingslokalisatie, terwijl het een balans bereikt tussen flexibiliteit, gebruiksgemak en precisie voor fijnmazige video-interpolatie. Om dit te bereiken, gebruiken we de Diffusion Transformer (DiT)-architectuur als ons videogeneratieve model, vanwege zijn bewezen vermogen om hoogwaardige lange video's te genereren. Om de compatibiliteit tussen DiT en onze multi-modale controles te waarborgen, vertalen we alle bewegingscontroles naar een gemeenschappelijke, spaarzame en gebruiksvriendelijke puntgebaseerde representatie als de video/ruis-input. Verder, om rekening te houden met de verscheidenheid aan controles die op verschillende niveaus van granulariteit en invloed werken, scheiden we inhoudscontroles en bewegingscontroles in twee takken om de vereiste kenmerken te coderen voordat we het denoisingsproces begeleiden, wat resulteert in twee generatoren, één voor beweging en één voor inhoud. Ten slotte stellen we een gefaseerde trainingsstrategie voor om ervoor te zorgen dat ons model de multi-modale controles soepel leert. Uitgebreide kwalitatieve en kwantitatieve experimenten tonen aan dat multi-modale controles een dynamischer, aanpasbaarder en contextueel nauwkeuriger visueel verhaal mogelijk maken.
English
Video inbetweening creates smooth and natural transitions between two image frames, making it an indispensable tool for video editing and long-form video synthesis. Existing works in this domain are unable to generate large, complex, or intricate motions. In particular, they cannot accommodate the versatility of user intents and generally lack fine control over the details of intermediate frames, leading to misalignment with the creative mind. To fill these gaps, we introduce MultiCOIN, a video inbetweening framework that allows multi-modal controls, including depth transition and layering, motion trajectories, text prompts, and target regions for movement localization, while achieving a balance between flexibility, ease of use, and precision for fine-grained video interpolation. To achieve this, we adopt the Diffusion Transformer (DiT) architecture as our video generative model, due to its proven capability to generate high-quality long videos. To ensure compatibility between DiT and our multi-modal controls, we map all motion controls into a common sparse and user-friendly point-based representation as the video/noise input. Further, to respect the variety of controls which operate at varying levels of granularity and influence, we separate content controls and motion controls into two branches to encode the required features before guiding the denoising process, resulting in two generators, one for motion and the other for content. Finally, we propose a stage-wise training strategy to ensure that our model learns the multi-modal controls smoothly. Extensive qualitative and quantitative experiments demonstrate that multi-modal controls enable a more dynamic, customizable, and contextually accurate visual narrative.
PDF02October 14, 2025