ChatPaper.aiChatPaper

InteractiveVideo: Пользовательско-ориентированная генерация управляемого видео с синергетическими мультимодальными инструкциями

InteractiveVideo: User-Centric Controllable Video Generation with Synergistic Multimodal Instructions

February 5, 2024
Авторы: Yiyuan Zhang, Yuhao Kang, Zhixin Zhang, Xiaohan Ding, Sanyuan Zhao, Xiangyu Yue
cs.AI

Аннотация

Мы представляем InteractiveVideo, ориентированную на пользователя платформу для генерации видео. В отличие от традиционных генеративных подходов, которые работают на основе предоставленных пользователем изображений или текста, наша платформа разработана для динамического взаимодействия, позволяя пользователям управлять генеративной моделью через различные интуитивные механизмы на протяжении всего процесса создания, такие как текстовые и графические подсказки, рисование, перетаскивание и т.д. Мы предлагаем механизм Синергетической Мультимодальной Инструкции, предназначенный для бесшовной интеграции мультимодальных инструкций пользователя в генеративные модели, что способствует кооперативному и отзывчивому взаимодействию между вводом пользователя и процессом генерации. Этот подход позволяет итеративно и детально уточнять результат генерации с помощью точных и эффективных инструкций пользователя. С InteractiveVideo пользователи получают гибкость для тщательной настройки ключевых аспектов видео. Они могут рисовать эталонное изображение, редактировать семантику и корректировать движение видео до полного удовлетворения своих требований. Код, модели и демонстрация доступны по адресу https://github.com/invictus717/InteractiveVideo.
English
We introduce InteractiveVideo, a user-centric framework for video generation. Different from traditional generative approaches that operate based on user-provided images or text, our framework is designed for dynamic interaction, allowing users to instruct the generative model through various intuitive mechanisms during the whole generation process, e.g. text and image prompts, painting, drag-and-drop, etc. We propose a Synergistic Multimodal Instruction mechanism, designed to seamlessly integrate users' multimodal instructions into generative models, thus facilitating a cooperative and responsive interaction between user inputs and the generative process. This approach enables iterative and fine-grained refinement of the generation result through precise and effective user instructions. With InteractiveVideo, users are given the flexibility to meticulously tailor key aspects of a video. They can paint the reference image, edit semantics, and adjust video motions until their requirements are fully met. Code, models, and demo are available at https://github.com/invictus717/InteractiveVideo
PDF181December 15, 2024