InteractiveVideo: Generación de Videos Controlables Centrada en el Usuario con Instrucciones Multimodales Sinérgicas

Resumen

Presentamos InteractiveVideo, un marco centrado en el usuario para la generación de videos. A diferencia de los enfoques generativos tradicionales que operan basándose en imágenes o texto proporcionados por el usuario, nuestro marco está diseñado para la interacción dinámica, permitiendo a los usuarios instruir al modelo generativo a través de diversos mecanismos intuitivos durante todo el proceso de generación, como indicaciones de texto e imágenes, pintura, arrastrar y soltar, etc. Proponemos un mecanismo de Instrucción Multimodal Sinérgica, diseñado para integrar de manera fluida las instrucciones multimodales de los usuarios en los modelos generativos, facilitando así una interacción cooperativa y receptiva entre las entradas del usuario y el proceso generativo. Este enfoque permite un refinamiento iterativo y detallado del resultado de la generación mediante instrucciones precisas y efectivas por parte del usuario. Con InteractiveVideo, los usuarios tienen la flexibilidad de ajustar meticulosamente aspectos clave de un video. Pueden pintar la imagen de referencia, editar semántica y ajustar los movimientos del video hasta que se cumplan plenamente sus requisitos. El código, los modelos y la demostración están disponibles en https://github.com/invictus717/InteractiveVideo.

English

We introduce InteractiveVideo, a user-centric framework for video generation. Different from traditional generative approaches that operate based on user-provided images or text, our framework is designed for dynamic interaction, allowing users to instruct the generative model through various intuitive mechanisms during the whole generation process, e.g. text and image prompts, painting, drag-and-drop, etc. We propose a Synergistic Multimodal Instruction mechanism, designed to seamlessly integrate users' multimodal instructions into generative models, thus facilitating a cooperative and responsive interaction between user inputs and the generative process. This approach enables iterative and fine-grained refinement of the generation result through precise and effective user instructions. With InteractiveVideo, users are given the flexibility to meticulously tailor key aspects of a video. They can paint the reference image, edit semantics, and adjust video motions until their requirements are fully met. Code, models, and demo are available at https://github.com/invictus717/InteractiveVideo

InteractiveVideo: Generación de Videos Controlables Centrada en el Usuario con Instrucciones Multimodales Sinérgicas

InteractiveVideo: User-Centric Controllable Video Generation with Synergistic Multimodal Instructions

Resumen

Support