InteractiveVideo: 다중 모달 지시 간 시너지를 통한 사용자 중심 제어형 비디오 생성
InteractiveVideo: User-Centric Controllable Video Generation with Synergistic Multimodal Instructions
February 5, 2024
저자: Yiyuan Zhang, Yuhao Kang, Zhixin Zhang, Xiaohan Ding, Sanyuan Zhao, Xiangyu Yue
cs.AI
초록
우리는 사용자 중심의 비디오 생성 프레임워크인 InteractiveVideo를 소개합니다. 기존의 사용자가 제공한 이미지나 텍스트를 기반으로 작동하는 생성 방식과 달리, 본 프레임워크는 동적 상호작용을 위해 설계되었으며, 사용자가 전체 생성 과정 동안 텍스트 및 이미지 프롬프트, 페인팅, 드래그 앤 드롭 등 다양한 직관적인 메커니즘을 통해 생성 모델에 지시할 수 있도록 합니다. 우리는 시너지 효과를 내는 다중 모달 지시 메커니즘(Synergistic Multimodal Instruction mechanism)을 제안하며, 이는 사용자의 다중 모달 지시를 생성 모델에 원활하게 통합하여 사용자 입력과 생성 과정 간의 협력적이고 반응적인 상호작용을 용이하게 합니다. 이 접근 방식은 정밀하고 효과적인 사용자 지시를 통해 생성 결과를 반복적이고 세밀하게 개선할 수 있게 합니다. InteractiveVideo를 통해 사용자는 비디오의 주요 측면을 꼼꼼하게 조정할 수 있는 유연성을 갖게 됩니다. 참조 이미지를 페인팅하고, 의미를 편집하며, 비디오 모션을 조정하여 요구 사항이 완전히 충족될 때까지 작업할 수 있습니다. 코드, 모델 및 데모는 https://github.com/invictus717/InteractiveVideo에서 확인할 수 있습니다.
English
We introduce InteractiveVideo, a user-centric framework for video
generation. Different from traditional generative approaches that operate based
on user-provided images or text, our framework is designed for dynamic
interaction, allowing users to instruct the generative model through various
intuitive mechanisms during the whole generation process, e.g. text and image
prompts, painting, drag-and-drop, etc. We propose a Synergistic Multimodal
Instruction mechanism, designed to seamlessly integrate users' multimodal
instructions into generative models, thus facilitating a cooperative and
responsive interaction between user inputs and the generative process. This
approach enables iterative and fine-grained refinement of the generation result
through precise and effective user instructions. With
InteractiveVideo, users are given the flexibility to meticulously
tailor key aspects of a video. They can paint the reference image, edit
semantics, and adjust video motions until their requirements are fully met.
Code, models, and demo are available at
https://github.com/invictus717/InteractiveVideo