UniVideo: Vereinheitlichtes Verstehen, Generieren und Bearbeiten von Videos
UniVideo: Unified Understanding, Generation, and Editing for Videos
October 9, 2025
papers.authors: Cong Wei, Quande Liu, Zixuan Ye, Qiulin Wang, Xintao Wang, Pengfei Wan, Kun Gai, Wenhu Chen
cs.AI
papers.abstract
Einheitliche multimodale Modelle haben vielversprechende Ergebnisse in der Generierung und Bearbeitung multimodaler Inhalte gezeigt, sind jedoch weitgehend auf den Bildbereich beschränkt. In dieser Arbeit präsentieren wir UniVideo, ein vielseitiges Framework, das die einheitliche Modellierung auf den Videobereich ausdehnt. UniVideo verwendet ein Dual-Stream-Design, das ein Multimodales Großes Sprachmodell (MLLM) für das Verständnis von Anweisungen mit einem Multimodalen DiT (MMDiT) für die Videogenerierung kombiniert. Dieses Design ermöglicht eine präzise Interpretation komplexer multimodaler Anweisungen bei gleichzeitiger Wahrung der visuellen Konsistenz. Auf dieser Architektur aufbauend vereint UniVideo verschiedene Aufgaben der Videogenerierung und -bearbeitung unter einem einzigen multimodalen Anweisungsparadigma und wird gemeinsam über diese hinweg trainiert. Umfangreiche Experimente zeigen, dass UniVideo in der Text-/Bild-zu-Video-Generierung, der kontextbezogenen Videogenerierung und der kontextbezogenen Videobearbeitung mit den state-of-the-art, aufgabenspezifischen Baselines gleichzieht oder diese übertrifft. Besonders hervorzuheben ist, dass das einheitliche Design von UniVideo zwei Formen der Generalisierung ermöglicht. Erstens unterstützt UniVideo die Aufgabenkombination, wie beispielsweise die Kombination von Bearbeitung mit Stiltransfer, indem mehrere Fähigkeiten in einer einzigen Anweisung integriert werden. Zweitens überträgt UniVideo, selbst ohne explizites Training auf freiformbasierte Videobearbeitung, seine Bearbeitungsfähigkeit von großflächigen Bildbearbeitungsdaten auf diesen Bereich und bewältigt unbekannte Anweisungen wie das Green-Screening von Charakteren oder das Ändern von Materialien innerhalb eines Videos. Über diese Kernfähigkeiten hinaus unterstützt UniVideo auch die visuell-promptbasierte Videogenerierung, bei der das MLLM visuelle Prompts interpretiert und den MMDiT während der Synthese anleitet. Um zukünftige Forschung zu fördern, werden wir unser Modell und den Code veröffentlichen.
English
Unified multimodal models have shown promising results in multimodal content
generation and editing but remain largely limited to the image domain. In this
work, we present UniVideo, a versatile framework that extends unified modeling
to the video domain. UniVideo adopts a dual-stream design, combining a
Multimodal Large Language Model (MLLM) for instruction understanding with a
Multimodal DiT (MMDiT) for video generation. This design enables accurate
interpretation of complex multimodal instructions while preserving visual
consistency. Built on this architecture, UniVideo unifies diverse video
generation and editing tasks under a single multimodal instruction paradigm and
is jointly trained across them. Extensive experiments demonstrate that UniVideo
matches or surpasses state-of-the-art task-specific baselines in
text/image-to-video generation, in-context video generation and in-context
video editing. Notably, the unified design of UniVideo enables two forms of
generalization. First, UniVideo supports task composition, such as combining
editing with style transfer, by integrating multiple capabilities within a
single instruction. Second, even without explicit training on free-form video
editing, UniVideo transfers its editing capability from large-scale image
editing data to this setting, handling unseen instructions such as
green-screening characters or changing materials within a video. Beyond these
core capabilities, UniVideo also supports visual-prompt-based video generation,
where the MLLM interprets visual prompts and guides the MMDiT during synthesis.
To foster future research, we will release our model and code.