ChatPaper.aiChatPaper

UniVideo: Geïntegreerd Begrip, Generatie en Bewerking van Video's

UniVideo: Unified Understanding, Generation, and Editing for Videos

October 9, 2025
Auteurs: Cong Wei, Quande Liu, Zixuan Ye, Qiulin Wang, Xintao Wang, Pengfei Wan, Kun Gai, Wenhu Chen
cs.AI

Samenvatting

Unified multimodale modellen hebben veelbelovende resultaten getoond in het genereren en bewerken van multimodale inhoud, maar blijven grotendeels beperkt tot het beelddomein. In dit werk presenteren we UniVideo, een veelzijdig framework dat unified modeling uitbreidt naar het videodomein. UniVideo hanteert een dual-stream ontwerp, waarbij een Multimodal Large Language Model (MLLM) voor instructiebegrip wordt gecombineerd met een Multimodal DiT (MMDiT) voor videogeneratie. Dit ontwerp maakt een nauwkeurige interpretatie van complexe multimodale instructies mogelijk, terwijl visuele consistentie behouden blijft. Gebaseerd op deze architectuur verenigt UniVideo diverse videogeneratie- en bewerkingstaken onder een enkel multimodaal instructieparadigma en wordt het gezamenlijk getraind over deze taken. Uitgebreide experimenten tonen aan dat UniVideo de state-of-the-art taakspecifieke baselines evenaart of overtreft in tekst-/beeld-naar-video generatie, in-context videogeneratie en in-context videobewerking. Opmerkelijk is dat het unified ontwerp van UniVideo twee vormen van generalisatie mogelijk maakt. Ten eerste ondersteunt UniVideo taakcompositie, zoals het combineren van bewerkingen met stijloverdracht, door meerdere mogelijkheden te integreren binnen een enkele instructie. Ten tweede, zelfs zonder expliciete training op vrijgevormde videobewerking, transfereert UniVideo zijn bewerkingscapaciteit van grootschalige beeldbewerkingsdata naar deze setting, waarbij het ongeziene instructies aankan, zoals het green-screenen van personages of het veranderen van materialen binnen een video. Naast deze kernmogelijkheden ondersteunt UniVideo ook visueel-gestuurde videogeneratie, waarbij de MLLM visuele prompts interpreteert en de MMDiT begeleidt tijdens de synthese. Om toekomstig onderzoek te bevorderen, zullen we ons model en code vrijgeven.
English
Unified multimodal models have shown promising results in multimodal content generation and editing but remain largely limited to the image domain. In this work, we present UniVideo, a versatile framework that extends unified modeling to the video domain. UniVideo adopts a dual-stream design, combining a Multimodal Large Language Model (MLLM) for instruction understanding with a Multimodal DiT (MMDiT) for video generation. This design enables accurate interpretation of complex multimodal instructions while preserving visual consistency. Built on this architecture, UniVideo unifies diverse video generation and editing tasks under a single multimodal instruction paradigm and is jointly trained across them. Extensive experiments demonstrate that UniVideo matches or surpasses state-of-the-art task-specific baselines in text/image-to-video generation, in-context video generation and in-context video editing. Notably, the unified design of UniVideo enables two forms of generalization. First, UniVideo supports task composition, such as combining editing with style transfer, by integrating multiple capabilities within a single instruction. Second, even without explicit training on free-form video editing, UniVideo transfers its editing capability from large-scale image editing data to this setting, handling unseen instructions such as green-screening characters or changing materials within a video. Beyond these core capabilities, UniVideo also supports visual-prompt-based video generation, where the MLLM interprets visual prompts and guides the MMDiT during synthesis. To foster future research, we will release our model and code.
PDF663October 10, 2025