ChatPaper.aiChatPaper

InteractiveVideo: Gebruikersgerichte Beheerbare Videogeneratie met Synergistische Multimodale Instructies

InteractiveVideo: User-Centric Controllable Video Generation with Synergistic Multimodal Instructions

February 5, 2024
Auteurs: Yiyuan Zhang, Yuhao Kang, Zhixin Zhang, Xiaohan Ding, Sanyuan Zhao, Xiangyu Yue
cs.AI

Samenvatting

We introduceren InteractiveVideo, een gebruikersgericht framework voor videogeneratie. In tegenstelling tot traditionele generatieve benaderingen die werken op basis van door gebruikers aangeleverde afbeeldingen of tekst, is ons framework ontworpen voor dynamische interactie, waardoor gebruikers het generatieve model tijdens het hele generatieproces kunnen instrueren via verschillende intuïtieve mechanismen, zoals tekst- en afbeeldingsprompts, schilderen, slepen-en-neerzetten, enz. We stellen een Synergistisch Multimodaal Instructiemechanisme voor, dat is ontworpen om multimodale instructies van gebruikers naadloos te integreren in generatieve modellen, waardoor een coöperatieve en responsieve interactie tussen gebruikersinvoer en het generatieve proces wordt gefaciliteerd. Deze aanpak maakt iteratieve en fijnmazige verfijning van het generatieresultaat mogelijk door middel van precieze en effectieve gebruikersinstructies. Met InteractiveVideo krijgen gebruikers de flexibiliteit om belangrijke aspecten van een video nauwkeurig aan te passen. Ze kunnen de referentieafbeelding bewerken, semantiek aanpassen en videobewegingen verfijnen totdat aan hun vereisten volledig is voldaan. Code, modellen en een demo zijn beschikbaar op https://github.com/invictus717/InteractiveVideo.
English
We introduce InteractiveVideo, a user-centric framework for video generation. Different from traditional generative approaches that operate based on user-provided images or text, our framework is designed for dynamic interaction, allowing users to instruct the generative model through various intuitive mechanisms during the whole generation process, e.g. text and image prompts, painting, drag-and-drop, etc. We propose a Synergistic Multimodal Instruction mechanism, designed to seamlessly integrate users' multimodal instructions into generative models, thus facilitating a cooperative and responsive interaction between user inputs and the generative process. This approach enables iterative and fine-grained refinement of the generation result through precise and effective user instructions. With InteractiveVideo, users are given the flexibility to meticulously tailor key aspects of a video. They can paint the reference image, edit semantics, and adjust video motions until their requirements are fully met. Code, models, and demo are available at https://github.com/invictus717/InteractiveVideo
PDF191December 22, 2025