UniVideo : Compréhension, Génération et Édition Unifiées pour les Vidéos
UniVideo: Unified Understanding, Generation, and Editing for Videos
October 9, 2025
papers.authors: Cong Wei, Quande Liu, Zixuan Ye, Qiulin Wang, Xintao Wang, Pengfei Wan, Kun Gai, Wenhu Chen
cs.AI
papers.abstract
Les modèles multimodaux unifiés ont montré des résultats prometteurs dans la génération et l'édition de contenu multimodal, mais restent largement limités au domaine de l'image. Dans ce travail, nous présentons UniVideo, un cadre polyvalent qui étend la modélisation unifiée au domaine vidéo. UniVideo adopte une conception à double flux, combinant un modèle de langage multimodal de grande envergure (MLLM) pour la compréhension des instructions avec un DiT multimodal (MMDiT) pour la génération vidéo. Cette conception permet une interprétation précise des instructions multimodales complexes tout en préservant la cohérence visuelle. Basé sur cette architecture, UniVideo unifie diverses tâches de génération et d'édition vidéo sous un seul paradigme d'instruction multimodal et est conjointement entraîné sur celles-ci. Des expériences approfondies démontrent qu'UniVideo égale ou dépasse les références spécifiques à une tâche de pointe dans la génération texte/image vers vidéo, la génération vidéo en contexte et l'édition vidéo en contexte. Notamment, la conception unifiée d'UniVideo permet deux formes de généralisation. Premièrement, UniVideo prend en charge la composition de tâches, comme combiner l'édition avec le transfert de style, en intégrant plusieurs capacités dans une seule instruction. Deuxièmement, même sans entraînement explicite sur l'édition vidéo libre, UniVideo transfère sa capacité d'édition à partir de données d'édition d'images à grande échelle à ce contexte, gérant des instructions inédites telles que l'incrustation de personnages sur fond vert ou la modification de matériaux dans une vidéo. Au-delà de ces capacités principales, UniVideo prend également en charge la génération vidéo basée sur des invites visuelles, où le MLLM interprète les invites visuelles et guide le MMDiT pendant la synthèse. Pour favoriser les recherches futures, nous publierons notre modèle et notre code.
English
Unified multimodal models have shown promising results in multimodal content
generation and editing but remain largely limited to the image domain. In this
work, we present UniVideo, a versatile framework that extends unified modeling
to the video domain. UniVideo adopts a dual-stream design, combining a
Multimodal Large Language Model (MLLM) for instruction understanding with a
Multimodal DiT (MMDiT) for video generation. This design enables accurate
interpretation of complex multimodal instructions while preserving visual
consistency. Built on this architecture, UniVideo unifies diverse video
generation and editing tasks under a single multimodal instruction paradigm and
is jointly trained across them. Extensive experiments demonstrate that UniVideo
matches or surpasses state-of-the-art task-specific baselines in
text/image-to-video generation, in-context video generation and in-context
video editing. Notably, the unified design of UniVideo enables two forms of
generalization. First, UniVideo supports task composition, such as combining
editing with style transfer, by integrating multiple capabilities within a
single instruction. Second, even without explicit training on free-form video
editing, UniVideo transfers its editing capability from large-scale image
editing data to this setting, handling unseen instructions such as
green-screening characters or changing materials within a video. Beyond these
core capabilities, UniVideo also supports visual-prompt-based video generation,
where the MLLM interprets visual prompts and guides the MMDiT during synthesis.
To foster future research, we will release our model and code.