UniVideo: Compreensão, Geração e Edição Unificadas para Vídeos
UniVideo: Unified Understanding, Generation, and Editing for Videos
October 9, 2025
Autores: Cong Wei, Quande Liu, Zixuan Ye, Qiulin Wang, Xintao Wang, Pengfei Wan, Kun Gai, Wenhu Chen
cs.AI
Resumo
Modelos multimodais unificados têm demonstrado resultados promissores na geração e edição de conteúdo multimodal, mas permanecem amplamente limitados ao domínio de imagens. Neste trabalho, apresentamos o UniVideo, uma estrutura versátil que estende a modelagem unificada ao domínio de vídeo. O UniVideo adota um design de fluxo duplo, combinando um Modelo de Linguagem Multimodal de Grande Escala (MLLM) para compreensão de instruções com um DiT Multimodal (MMDiT) para geração de vídeo. Esse design permite a interpretação precisa de instruções multimodais complexas, preservando a consistência visual. Baseado nessa arquitetura, o UniVideo unifica diversas tarefas de geração e edição de vídeo sob um único paradigma de instrução multimodal e é treinado conjuntamente em todas elas. Experimentos extensivos demonstram que o UniVideo iguala ou supera os modelos de referência específicos para tarefas em geração de vídeo a partir de texto/imagem, geração de vídeo em contexto e edição de vídeo em contexto. Notavelmente, o design unificado do UniVideo permite duas formas de generalização. Primeiro, o UniVideo suporta a composição de tarefas, como combinar edição com transferência de estilo, integrando múltiplas capacidades em uma única instrução. Segundo, mesmo sem treinamento explícito em edição de vídeo de forma livre, o UniVideo transfere sua capacidade de edição de dados de edição de imagem em larga escala para esse cenário, lidando com instruções não vistas, como a inserção de personagens em chroma key ou a alteração de materiais dentro de um vídeo. Além dessas capacidades principais, o UniVideo também suporta a geração de vídeo baseada em prompts visuais, onde o MLLM interpreta os prompts visuais e guia o MMDiT durante a síntese. Para promover pesquisas futuras, disponibilizaremos nosso modelo e código.
English
Unified multimodal models have shown promising results in multimodal content
generation and editing but remain largely limited to the image domain. In this
work, we present UniVideo, a versatile framework that extends unified modeling
to the video domain. UniVideo adopts a dual-stream design, combining a
Multimodal Large Language Model (MLLM) for instruction understanding with a
Multimodal DiT (MMDiT) for video generation. This design enables accurate
interpretation of complex multimodal instructions while preserving visual
consistency. Built on this architecture, UniVideo unifies diverse video
generation and editing tasks under a single multimodal instruction paradigm and
is jointly trained across them. Extensive experiments demonstrate that UniVideo
matches or surpasses state-of-the-art task-specific baselines in
text/image-to-video generation, in-context video generation and in-context
video editing. Notably, the unified design of UniVideo enables two forms of
generalization. First, UniVideo supports task composition, such as combining
editing with style transfer, by integrating multiple capabilities within a
single instruction. Second, even without explicit training on free-form video
editing, UniVideo transfers its editing capability from large-scale image
editing data to this setting, handling unseen instructions such as
green-screening characters or changing materials within a video. Beyond these
core capabilities, UniVideo also supports visual-prompt-based video generation,
where the MLLM interprets visual prompts and guides the MMDiT during synthesis.
To foster future research, we will release our model and code.