ChatPaper.aiChatPaper

MultiCOIN: Interpolação de Vídeo Multi-Modal Controlável

MultiCOIN: Multi-Modal COntrollable Video INbetweening

October 9, 2025
Autores: Maham Tanveer, Yang Zhou, Simon Niklaus, Ali Mahdavi Amiri, Hao Zhang, Krishna Kumar Singh, Nanxuan Zhao
cs.AI

Resumo

A interpolação de vídeo cria transições suaves e naturais entre dois quadros de imagem, tornando-se uma ferramenta indispensável para edição de vídeo e síntese de vídeos de longa duração. Os trabalhos existentes nesse domínio são incapazes de gerar movimentos grandes, complexos ou intrincados. Em particular, eles não conseguem acomodar a versatilidade das intenções do usuário e geralmente carecem de controle refinado sobre os detalhes dos quadros intermediários, levando a um desalinhamento com a mente criativa. Para preencher essas lacunas, apresentamos o MultiCOIN, um framework de interpolação de vídeo que permite controles multimodais, incluindo transição e camadas de profundidade, trajetórias de movimento, prompts de texto e regiões alvo para localização de movimento, enquanto alcança um equilíbrio entre flexibilidade, facilidade de uso e precisão para interpolação de vídeo de alta granularidade. Para isso, adotamos a arquitetura Diffusion Transformer (DiT) como nosso modelo gerador de vídeo, devido à sua comprovada capacidade de gerar vídeos longos de alta qualidade. Para garantir a compatibilidade entre o DiT e nossos controles multimodais, mapeamos todos os controles de movimento em uma representação comum baseada em pontos, esparsa e amigável ao usuário, como entrada de vídeo/ruído. Além disso, para respeitar a variedade de controles que operam em diferentes níveis de granularidade e influência, separamos os controles de conteúdo e os controles de movimento em dois ramos para codificar as características necessárias antes de guiar o processo de remoção de ruído, resultando em dois geradores: um para movimento e outro para conteúdo. Por fim, propomos uma estratégia de treinamento em etapas para garantir que nosso modelo aprenda os controles multimodais de forma suave. Experimentos qualitativos e quantitativos extensivos demonstram que os controles multimodais permitem uma narrativa visual mais dinâmica, personalizável e contextualmente precisa.
English
Video inbetweening creates smooth and natural transitions between two image frames, making it an indispensable tool for video editing and long-form video synthesis. Existing works in this domain are unable to generate large, complex, or intricate motions. In particular, they cannot accommodate the versatility of user intents and generally lack fine control over the details of intermediate frames, leading to misalignment with the creative mind. To fill these gaps, we introduce MultiCOIN, a video inbetweening framework that allows multi-modal controls, including depth transition and layering, motion trajectories, text prompts, and target regions for movement localization, while achieving a balance between flexibility, ease of use, and precision for fine-grained video interpolation. To achieve this, we adopt the Diffusion Transformer (DiT) architecture as our video generative model, due to its proven capability to generate high-quality long videos. To ensure compatibility between DiT and our multi-modal controls, we map all motion controls into a common sparse and user-friendly point-based representation as the video/noise input. Further, to respect the variety of controls which operate at varying levels of granularity and influence, we separate content controls and motion controls into two branches to encode the required features before guiding the denoising process, resulting in two generators, one for motion and the other for content. Finally, we propose a stage-wise training strategy to ensure that our model learns the multi-modal controls smoothly. Extensive qualitative and quantitative experiments demonstrate that multi-modal controls enable a more dynamic, customizable, and contextually accurate visual narrative.
PDF02October 14, 2025