MultiCOIN: 멀티모달 제어 가능 비디오 중간 프레임 생성
MultiCOIN: Multi-Modal COntrollable Video INbetweening
October 9, 2025
저자: Maham Tanveer, Yang Zhou, Simon Niklaus, Ali Mahdavi Amiri, Hao Zhang, Krishna Kumar Singh, Nanxuan Zhao
cs.AI
초록
비디오 인비트위닝은 두 이미지 프레임 사이에 부드럽고 자연스러운 전환을 생성하여 비디오 편집 및 장편 비디오 합성에 필수적인 도구로 자리 잡고 있습니다. 이 분야의 기존 연구들은 크고 복잡하거나 정교한 동작을 생성하는 데 한계가 있습니다. 특히, 사용자 의도의 다양성을 수용하지 못하며 중간 프레임의 세부 사항에 대한 미세한 제어가 부족하여 창의적인 의도와의 불일치를 초래합니다. 이러한 격차를 메우기 위해, 우리는 MultiCOIN을 소개합니다. 이는 깊이 전환 및 레이어링, 모션 궤적, 텍스트 프롬프트, 이동 지역화를 위한 타겟 영역 등 다중 모드 제어를 허용하면서 유연성, 사용 편의성, 세밀한 비디오 보간을 위한 정밀도 사이의 균형을 달성하는 비디오 인비트위닝 프레임워크입니다. 이를 위해, 우리는 고품질의 긴 비디오를 생성하는 데 검증된 능력을 가진 Diffusion Transformer (DiT) 아키텍처를 비디오 생성 모델로 채택했습니다. DiT와 우리의 다중 모드 제어 간의 호환성을 보장하기 위해, 모든 모션 제어를 공통의 희소하고 사용자 친화적인 포인트 기반 표현으로 매핑하여 비디오/노이즈 입력으로 사용합니다. 더 나아가, 다양한 수준의 세분성과 영향력을 가진 제어의 다양성을 존중하기 위해, 콘텐츠 제어와 모션 제어를 두 개의 브랜치로 분리하여 디노이징 프로세스를 안내하기 전에 필요한 특징을 인코딩합니다. 이로 인해 모션과 콘텐츠를 위한 두 개의 생성기가 만들어집니다. 마지막으로, 우리는 모델이 다중 모드 제어를 원활하게 학습할 수 있도록 단계별 훈련 전략을 제안합니다. 광범위한 정성적 및 정량적 실험을 통해 다중 모드 제어가 더 동적이고 맞춤화 가능하며 문맥적으로 정확한 시각적 내러티브를 가능하게 함을 입증합니다.
English
Video inbetweening creates smooth and natural transitions between two image
frames, making it an indispensable tool for video editing and long-form video
synthesis. Existing works in this domain are unable to generate large, complex,
or intricate motions. In particular, they cannot accommodate the versatility of
user intents and generally lack fine control over the details of intermediate
frames, leading to misalignment with the creative mind. To fill these gaps, we
introduce MultiCOIN, a video inbetweening framework that allows multi-modal
controls, including depth transition and layering, motion trajectories, text
prompts, and target regions for movement localization, while achieving a
balance between flexibility, ease of use, and precision for fine-grained video
interpolation. To achieve this, we adopt the Diffusion Transformer (DiT)
architecture as our video generative model, due to its proven capability to
generate high-quality long videos. To ensure compatibility between DiT and our
multi-modal controls, we map all motion controls into a common sparse and
user-friendly point-based representation as the video/noise input. Further, to
respect the variety of controls which operate at varying levels of granularity
and influence, we separate content controls and motion controls into two
branches to encode the required features before guiding the denoising process,
resulting in two generators, one for motion and the other for content. Finally,
we propose a stage-wise training strategy to ensure that our model learns the
multi-modal controls smoothly. Extensive qualitative and quantitative
experiments demonstrate that multi-modal controls enable a more dynamic,
customizable, and contextually accurate visual narrative.