ChatPaper.aiChatPaper

UniVideo: Comprensione, Generazione e Modifica Unificata per i Video

UniVideo: Unified Understanding, Generation, and Editing for Videos

October 9, 2025
Autori: Cong Wei, Quande Liu, Zixuan Ye, Qiulin Wang, Xintao Wang, Pengfei Wan, Kun Gai, Wenhu Chen
cs.AI

Abstract

I modelli multimodali unificati hanno dimostrato risultati promettenti nella generazione e modifica di contenuti multimodali, ma rimangono ampiamente limitati al dominio delle immagini. In questo lavoro, presentiamo UniVideo, un framework versatile che estende la modellazione unificata al dominio video. UniVideo adotta un design a doppio flusso, combinando un Multimodal Large Language Model (MLLM) per la comprensione delle istruzioni con un Multimodal DiT (MMDiT) per la generazione video. Questo design consente un'interpretazione accurata di istruzioni multimodali complesse preservando la coerenza visiva. Basandosi su questa architettura, UniVideo unifica diverse attività di generazione e modifica video sotto un unico paradigma di istruzione multimodale ed è addestrato congiuntamente su di esse. Esperimenti estensivi dimostrano che UniVideo eguaglia o supera i migliori baselines specifici per task nella generazione video da testo/immagini, nella generazione video in contesto e nella modifica video in contesto. In particolare, il design unificato di UniVideo consente due forme di generalizzazione. Innanzitutto, UniVideo supporta la composizione di task, come combinare la modifica con il trasferimento di stile, integrando più capacità all'interno di una singola istruzione. In secondo luogo, anche senza un addestramento esplicito sulla modifica video libera, UniVideo trasferisce la sua capacità di modifica da dati su larga scala di modifica delle immagini a questo contesto, gestendo istruzioni non viste come il green-screening di personaggi o la modifica di materiali all'interno di un video. Oltre a queste capacità principali, UniVideo supporta anche la generazione video basata su prompt visivi, dove l'MLLM interpreta i prompt visivi e guida l'MMDiT durante la sintesi. Per favorire la ricerca futura, rilasceremo il nostro modello e il codice.
English
Unified multimodal models have shown promising results in multimodal content generation and editing but remain largely limited to the image domain. In this work, we present UniVideo, a versatile framework that extends unified modeling to the video domain. UniVideo adopts a dual-stream design, combining a Multimodal Large Language Model (MLLM) for instruction understanding with a Multimodal DiT (MMDiT) for video generation. This design enables accurate interpretation of complex multimodal instructions while preserving visual consistency. Built on this architecture, UniVideo unifies diverse video generation and editing tasks under a single multimodal instruction paradigm and is jointly trained across them. Extensive experiments demonstrate that UniVideo matches or surpasses state-of-the-art task-specific baselines in text/image-to-video generation, in-context video generation and in-context video editing. Notably, the unified design of UniVideo enables two forms of generalization. First, UniVideo supports task composition, such as combining editing with style transfer, by integrating multiple capabilities within a single instruction. Second, even without explicit training on free-form video editing, UniVideo transfers its editing capability from large-scale image editing data to this setting, handling unseen instructions such as green-screening characters or changing materials within a video. Beyond these core capabilities, UniVideo also supports visual-prompt-based video generation, where the MLLM interprets visual prompts and guides the MMDiT during synthesis. To foster future research, we will release our model and code.
PDF663October 10, 2025