InteractiveVideo: Generazione di Video Controllabile Centrata sull'Utente con Istruzioni Multimodali Sinergiche
InteractiveVideo: User-Centric Controllable Video Generation with Synergistic Multimodal Instructions
February 5, 2024
Autori: Yiyuan Zhang, Yuhao Kang, Zhixin Zhang, Xiaohan Ding, Sanyuan Zhao, Xiangyu Yue
cs.AI
Abstract
Presentiamo InteractiveVideo, un framework incentrato sull'utente per la generazione di video. A differenza degli approcci generativi tradizionali che operano basandosi su immagini o testi forniti dall'utente, il nostro framework è progettato per l'interazione dinamica, consentendo agli utenti di guidare il modello generativo attraverso vari meccanismi intuitivi durante l'intero processo di generazione, come prompt testuali e visivi, pittura, trascinamento, ecc. Proponiamo un meccanismo di Istruzione Multimodale Sinergica, concepito per integrare in modo fluido le istruzioni multimodali dell'utente nei modelli generativi, facilitando così un'interazione cooperativa e reattiva tra gli input dell'utente e il processo generativo. Questo approccio consente un affinamento iterativo e granulare del risultato generativo attraverso istruzioni precise ed efficaci da parte dell'utente. Con InteractiveVideo, gli utenti hanno la flessibilità di personalizzare meticolosamente aspetti chiave di un video. Possono dipingere l'immagine di riferimento, modificare la semantica e regolare i movimenti del video fino a quando i loro requisiti non sono pienamente soddisfatti. Codice, modelli e demo sono disponibili su https://github.com/invictus717/InteractiveVideo.
English
We introduce InteractiveVideo, a user-centric framework for video
generation. Different from traditional generative approaches that operate based
on user-provided images or text, our framework is designed for dynamic
interaction, allowing users to instruct the generative model through various
intuitive mechanisms during the whole generation process, e.g. text and image
prompts, painting, drag-and-drop, etc. We propose a Synergistic Multimodal
Instruction mechanism, designed to seamlessly integrate users' multimodal
instructions into generative models, thus facilitating a cooperative and
responsive interaction between user inputs and the generative process. This
approach enables iterative and fine-grained refinement of the generation result
through precise and effective user instructions. With
InteractiveVideo, users are given the flexibility to meticulously
tailor key aspects of a video. They can paint the reference image, edit
semantics, and adjust video motions until their requirements are fully met.
Code, models, and demo are available at
https://github.com/invictus717/InteractiveVideo