ChatPaper.aiChatPaper

MultiCOIN: Мультимодальное управляемое промежуточное видео

MultiCOIN: Multi-Modal COntrollable Video INbetweening

October 9, 2025
Авторы: Maham Tanveer, Yang Zhou, Simon Niklaus, Ali Mahdavi Amiri, Hao Zhang, Krishna Kumar Singh, Nanxuan Zhao
cs.AI

Аннотация

Видеоинтерполяция создает плавные и естественные переходы между двумя кадрами изображения, что делает ее незаменимым инструментом для видеомонтажа и синтеза длинных видеороликов. Существующие работы в этой области не способны генерировать крупные, сложные или детализированные движения. В частности, они не могут учитывать разнообразие пользовательских намерений и, как правило, не обеспечивают точного контроля над деталями промежуточных кадров, что приводит к несоответствию с творческим замыслом. Чтобы устранить эти пробелы, мы представляем MultiCOIN — фреймворк для видеоинтерполяции, который позволяет использовать мультимодальные элементы управления, включая переходы и слои глубины, траектории движения, текстовые подсказки и целевые области для локализации движения, достигая баланса между гибкостью, удобством использования и точностью для детализированной интерполяции видео. Для этого мы используем архитектуру Diffusion Transformer (DiT) в качестве нашей модели генерации видео благодаря ее доказанной способности создавать высококачественные длинные видеоролики. Чтобы обеспечить совместимость между DiT и нашими мультимодальными элементами управления, мы преобразуем все элементы управления движением в общее разреженное и удобное для пользователя представление на основе точек, которое используется как вход для видео/шума. Кроме того, чтобы учитывать разнообразие элементов управления, которые работают на разных уровнях детализации и влияния, мы разделяем элементы управления контентом и движением на две ветви для кодирования необходимых признаков перед управлением процессом удаления шума, что приводит к двум генераторам: один для движения, а другой для контента. Наконец, мы предлагаем поэтапную стратегию обучения, чтобы гарантировать, что наша модель плавно осваивает мультимодальные элементы управления. Многочисленные качественные и количественные эксперименты демонстрируют, что мультимодальные элементы управления позволяют создавать более динамичный, настраиваемый и контекстуально точный визуальный нарратив.
English
Video inbetweening creates smooth and natural transitions between two image frames, making it an indispensable tool for video editing and long-form video synthesis. Existing works in this domain are unable to generate large, complex, or intricate motions. In particular, they cannot accommodate the versatility of user intents and generally lack fine control over the details of intermediate frames, leading to misalignment with the creative mind. To fill these gaps, we introduce MultiCOIN, a video inbetweening framework that allows multi-modal controls, including depth transition and layering, motion trajectories, text prompts, and target regions for movement localization, while achieving a balance between flexibility, ease of use, and precision for fine-grained video interpolation. To achieve this, we adopt the Diffusion Transformer (DiT) architecture as our video generative model, due to its proven capability to generate high-quality long videos. To ensure compatibility between DiT and our multi-modal controls, we map all motion controls into a common sparse and user-friendly point-based representation as the video/noise input. Further, to respect the variety of controls which operate at varying levels of granularity and influence, we separate content controls and motion controls into two branches to encode the required features before guiding the denoising process, resulting in two generators, one for motion and the other for content. Finally, we propose a stage-wise training strategy to ensure that our model learns the multi-modal controls smoothly. Extensive qualitative and quantitative experiments demonstrate that multi-modal controls enable a more dynamic, customizable, and contextually accurate visual narrative.
PDF02October 14, 2025