MultiCOIN: Multi-modale kontrollierbare Video-Zwischenbildgenerierung
MultiCOIN: Multi-Modal COntrollable Video INbetweening
October 9, 2025
papers.authors: Maham Tanveer, Yang Zhou, Simon Niklaus, Ali Mahdavi Amiri, Hao Zhang, Krishna Kumar Singh, Nanxuan Zhao
cs.AI
papers.abstract
Video Inbetweening erzeugt flüssige und natürliche Übergänge zwischen zwei Bildrahmen und ist damit ein unverzichtbares Werkzeug für die Videobearbeitung und die Synthese langer Videos. Bisherige Arbeiten in diesem Bereich sind nicht in der Lage, große, komplexe oder detailreiche Bewegungen zu generieren. Insbesondere können sie die Vielseitigkeit der Benutzerabsichten nicht berücksichtigen und bieten in der Regel keine präzise Kontrolle über die Details der Zwischenbilder, was zu einer Fehlausrichtung mit der kreativen Absicht führt. Um diese Lücken zu schließen, stellen wir MultiCOIN vor, ein Video-Inbetweening-Framework, das multimodale Steuerungen ermöglicht, einschließlich Tiefenübergängen und -schichtungen, Bewegungsbahnen, Textprompts und Zielbereichen für die Bewegungslokalisierung, während es ein Gleichgewicht zwischen Flexibilität, Benutzerfreundlichkeit und Präzision für die fein abgestufte Videointerpolation erreicht. Um dies zu erreichen, verwenden wir die Diffusion Transformer (DiT)-Architektur als unser Video-Generierungsmodell, da sie sich als fähig erwiesen hat, hochwertige lange Videos zu erzeugen. Um die Kompatibilität zwischen DiT und unseren multimodalen Steuerungen sicherzustellen, bilden wir alle Bewegungssteuerungen in eine gemeinsame, spärliche und benutzerfreundliche punktbasierte Darstellung als Video-/Rauscheingabe ab. Darüber hinaus trennen wir, um die Vielfalt der Steuerungen zu berücksichtigen, die auf unterschiedlichen Granularitäts- und Einflussniveaus arbeiten, Inhaltssteuerungen und Bewegungssteuerungen in zwei Zweige, um die erforderlichen Merkmale zu kodieren, bevor wir den Rauschunterdrückungsprozess steuern, was zu zwei Generatoren führt, einem für die Bewegung und einem für den Inhalt. Schließlich schlagen wir eine stufenweise Trainingsstrategie vor, um sicherzustellen, dass unser Modell die multimodalen Steuerungen reibungslos erlernt. Umfangreiche qualitative und quantitative Experimente zeigen, dass multimodale Steuerungen eine dynamischere, anpassbarere und kontextuell genauere visuelle Erzählung ermöglichen.
English
Video inbetweening creates smooth and natural transitions between two image
frames, making it an indispensable tool for video editing and long-form video
synthesis. Existing works in this domain are unable to generate large, complex,
or intricate motions. In particular, they cannot accommodate the versatility of
user intents and generally lack fine control over the details of intermediate
frames, leading to misalignment with the creative mind. To fill these gaps, we
introduce MultiCOIN, a video inbetweening framework that allows multi-modal
controls, including depth transition and layering, motion trajectories, text
prompts, and target regions for movement localization, while achieving a
balance between flexibility, ease of use, and precision for fine-grained video
interpolation. To achieve this, we adopt the Diffusion Transformer (DiT)
architecture as our video generative model, due to its proven capability to
generate high-quality long videos. To ensure compatibility between DiT and our
multi-modal controls, we map all motion controls into a common sparse and
user-friendly point-based representation as the video/noise input. Further, to
respect the variety of controls which operate at varying levels of granularity
and influence, we separate content controls and motion controls into two
branches to encode the required features before guiding the denoising process,
resulting in two generators, one for motion and the other for content. Finally,
we propose a stage-wise training strategy to ensure that our model learns the
multi-modal controls smoothly. Extensive qualitative and quantitative
experiments demonstrate that multi-modal controls enable a more dynamic,
customizable, and contextually accurate visual narrative.