InteractiveVideo: Generazione di Video Controllabile Centrata sull'Utente con Istruzioni Multimodali Sinergiche

Abstract

Presentiamo InteractiveVideo, un framework incentrato sull'utente per la generazione di video. A differenza degli approcci generativi tradizionali che operano basandosi su immagini o testi forniti dall'utente, il nostro framework è progettato per l'interazione dinamica, consentendo agli utenti di guidare il modello generativo attraverso vari meccanismi intuitivi durante l'intero processo di generazione, come prompt testuali e visivi, pittura, trascinamento, ecc. Proponiamo un meccanismo di Istruzione Multimodale Sinergica, concepito per integrare in modo fluido le istruzioni multimodali dell'utente nei modelli generativi, facilitando così un'interazione cooperativa e reattiva tra gli input dell'utente e il processo generativo. Questo approccio consente un affinamento iterativo e granulare del risultato generativo attraverso istruzioni precise ed efficaci da parte dell'utente. Con InteractiveVideo, gli utenti hanno la flessibilità di personalizzare meticolosamente aspetti chiave di un video. Possono dipingere l'immagine di riferimento, modificare la semantica e regolare i movimenti del video fino a quando i loro requisiti non sono pienamente soddisfatti. Codice, modelli e demo sono disponibili su https://github.com/invictus717/InteractiveVideo.

English

We introduce InteractiveVideo, a user-centric framework for video generation. Different from traditional generative approaches that operate based on user-provided images or text, our framework is designed for dynamic interaction, allowing users to instruct the generative model through various intuitive mechanisms during the whole generation process, e.g. text and image prompts, painting, drag-and-drop, etc. We propose a Synergistic Multimodal Instruction mechanism, designed to seamlessly integrate users' multimodal instructions into generative models, thus facilitating a cooperative and responsive interaction between user inputs and the generative process. This approach enables iterative and fine-grained refinement of the generation result through precise and effective user instructions. With InteractiveVideo, users are given the flexibility to meticulously tailor key aspects of a video. They can paint the reference image, edit semantics, and adjust video motions until their requirements are fully met. Code, models, and demo are available at https://github.com/invictus717/InteractiveVideo

InteractiveVideo: Generazione di Video Controllabile Centrata sull'Utente con Istruzioni Multimodali Sinergiche

InteractiveVideo: User-Centric Controllable Video Generation with Synergistic Multimodal Instructions

Abstract

Support