InteractiveVideo: Generación de Videos Controlables Centrada en el Usuario con Instrucciones Multimodales Sinérgicas
InteractiveVideo: User-Centric Controllable Video Generation with Synergistic Multimodal Instructions
February 5, 2024
Autores: Yiyuan Zhang, Yuhao Kang, Zhixin Zhang, Xiaohan Ding, Sanyuan Zhao, Xiangyu Yue
cs.AI
Resumen
Presentamos InteractiveVideo, un marco centrado en el usuario para la generación de videos. A diferencia de los enfoques generativos tradicionales que operan basándose en imágenes o texto proporcionados por el usuario, nuestro marco está diseñado para la interacción dinámica, permitiendo a los usuarios instruir al modelo generativo a través de diversos mecanismos intuitivos durante todo el proceso de generación, como indicaciones de texto e imágenes, pintura, arrastrar y soltar, etc. Proponemos un mecanismo de Instrucción Multimodal Sinérgica, diseñado para integrar de manera fluida las instrucciones multimodales de los usuarios en los modelos generativos, facilitando así una interacción cooperativa y receptiva entre las entradas del usuario y el proceso generativo. Este enfoque permite un refinamiento iterativo y detallado del resultado de la generación mediante instrucciones precisas y efectivas por parte del usuario. Con InteractiveVideo, los usuarios tienen la flexibilidad de ajustar meticulosamente aspectos clave de un video. Pueden pintar la imagen de referencia, editar semántica y ajustar los movimientos del video hasta que se cumplan plenamente sus requisitos. El código, los modelos y la demostración están disponibles en https://github.com/invictus717/InteractiveVideo.
English
We introduce InteractiveVideo, a user-centric framework for video
generation. Different from traditional generative approaches that operate based
on user-provided images or text, our framework is designed for dynamic
interaction, allowing users to instruct the generative model through various
intuitive mechanisms during the whole generation process, e.g. text and image
prompts, painting, drag-and-drop, etc. We propose a Synergistic Multimodal
Instruction mechanism, designed to seamlessly integrate users' multimodal
instructions into generative models, thus facilitating a cooperative and
responsive interaction between user inputs and the generative process. This
approach enables iterative and fine-grained refinement of the generation result
through precise and effective user instructions. With
InteractiveVideo, users are given the flexibility to meticulously
tailor key aspects of a video. They can paint the reference image, edit
semantics, and adjust video motions until their requirements are fully met.
Code, models, and demo are available at
https://github.com/invictus717/InteractiveVideo