UniVideo: Comprensión, Generación y Edición Unificada para Videos
UniVideo: Unified Understanding, Generation, and Editing for Videos
October 9, 2025
Autores: Cong Wei, Quande Liu, Zixuan Ye, Qiulin Wang, Xintao Wang, Pengfei Wan, Kun Gai, Wenhu Chen
cs.AI
Resumen
Los modelos multimodales unificados han mostrado resultados prometedores en la generación y edición de contenido multimodal, pero siguen estando mayormente limitados al dominio de las imágenes. En este trabajo, presentamos UniVideo, un marco versátil que extiende el modelado unificado al dominio del video. UniVideo adopta un diseño de doble flujo, combinando un Modelo de Lenguaje Multimodal de Gran Escala (MLLM, por sus siglas en inglés) para la comprensión de instrucciones con un DiT Multimodal (MMDiT) para la generación de videos. Este diseño permite una interpretación precisa de instrucciones multimodales complejas mientras se preserva la consistencia visual. Basado en esta arquitectura, UniVideo unifica diversas tareas de generación y edición de videos bajo un único paradigma de instrucción multimodal y es entrenado conjuntamente en ellas. Experimentos exhaustivos demuestran que UniVideo iguala o supera los modelos de referencia específicos para tareas en generación de texto/imagen a video, generación de video en contexto y edición de video en contexto. Notablemente, el diseño unificado de UniVideo permite dos formas de generalización. Primero, UniVideo admite la composición de tareas, como combinar la edición con la transferencia de estilo, al integrar múltiples capacidades dentro de una única instrucción. Segundo, incluso sin entrenamiento explícito en edición de video de forma libre, UniVideo transfiere su capacidad de edición desde datos de edición de imágenes a gran escala a este escenario, manejando instrucciones no vistas, como la extracción de personajes con pantalla verde o el cambio de materiales dentro de un video. Más allá de estas capacidades principales, UniVideo también admite la generación de videos basada en indicaciones visuales, donde el MLLM interpreta las indicaciones visuales y guía al MMDiT durante la síntesis. Para fomentar futuras investigaciones, liberaremos nuestro modelo y código.
English
Unified multimodal models have shown promising results in multimodal content
generation and editing but remain largely limited to the image domain. In this
work, we present UniVideo, a versatile framework that extends unified modeling
to the video domain. UniVideo adopts a dual-stream design, combining a
Multimodal Large Language Model (MLLM) for instruction understanding with a
Multimodal DiT (MMDiT) for video generation. This design enables accurate
interpretation of complex multimodal instructions while preserving visual
consistency. Built on this architecture, UniVideo unifies diverse video
generation and editing tasks under a single multimodal instruction paradigm and
is jointly trained across them. Extensive experiments demonstrate that UniVideo
matches or surpasses state-of-the-art task-specific baselines in
text/image-to-video generation, in-context video generation and in-context
video editing. Notably, the unified design of UniVideo enables two forms of
generalization. First, UniVideo supports task composition, such as combining
editing with style transfer, by integrating multiple capabilities within a
single instruction. Second, even without explicit training on free-form video
editing, UniVideo transfers its editing capability from large-scale image
editing data to this setting, handling unseen instructions such as
green-screening characters or changing materials within a video. Beyond these
core capabilities, UniVideo also supports visual-prompt-based video generation,
where the MLLM interprets visual prompts and guides the MMDiT during synthesis.
To foster future research, we will release our model and code.