UniVideo: Унифицированное понимание, генерация и редактирование видео
UniVideo: Unified Understanding, Generation, and Editing for Videos
October 9, 2025
Авторы: Cong Wei, Quande Liu, Zixuan Ye, Qiulin Wang, Xintao Wang, Pengfei Wan, Kun Gai, Wenhu Chen
cs.AI
Аннотация
Унифицированные мультимодальные модели продемонстрировали многообещающие результаты в генерации и редактировании мультимодального контента, но остаются в основном ограниченными областью изображений. В данной работе мы представляем UniVideo, универсальную платформу, которая расширяет унифицированное моделирование на область видео. UniVideo использует двухпоточную архитектуру, сочетая Мультимодальную Большую Языковую Модель (MLLM) для понимания инструкций с Мультимодальной DiT (MMDiT) для генерации видео. Такая архитектура позволяет точно интерпретировать сложные мультимодальные инструкции, сохраняя визуальную согласованность. На основе этой архитектуры UniVideo объединяет разнообразные задачи генерации и редактирования видео в рамках единой мультимодальной инструкционной парадигмы и обучается совместно для всех этих задач. Многочисленные эксперименты показывают, что UniVideo соответствует или превосходит современные специализированные базовые модели в задачах генерации видео из текста/изображений, контекстной генерации видео и контекстного редактирования видео. Важно отметить, что унифицированная архитектура UniVideo обеспечивает два вида обобщения. Во-первых, UniVideo поддерживает композицию задач, например, сочетание редактирования с переносом стиля, путем интеграции нескольких возможностей в рамках одной инструкции. Во-вторых, даже без явного обучения на свободном редактировании видео, UniVideo переносит свои возможности редактирования из данных крупномасштабного редактирования изображений на эту задачу, справляясь с непредвиденными инструкциями, такими как замена фона персонажей или изменение материалов в видео. Помимо этих основных возможностей, UniVideo также поддерживает генерацию видео на основе визуальных подсказок, где MLLM интерпретирует визуальные подсказки и направляет MMDiT в процессе синтеза. Для стимулирования будущих исследований мы опубликуем нашу модель и код.
English
Unified multimodal models have shown promising results in multimodal content
generation and editing but remain largely limited to the image domain. In this
work, we present UniVideo, a versatile framework that extends unified modeling
to the video domain. UniVideo adopts a dual-stream design, combining a
Multimodal Large Language Model (MLLM) for instruction understanding with a
Multimodal DiT (MMDiT) for video generation. This design enables accurate
interpretation of complex multimodal instructions while preserving visual
consistency. Built on this architecture, UniVideo unifies diverse video
generation and editing tasks under a single multimodal instruction paradigm and
is jointly trained across them. Extensive experiments demonstrate that UniVideo
matches or surpasses state-of-the-art task-specific baselines in
text/image-to-video generation, in-context video generation and in-context
video editing. Notably, the unified design of UniVideo enables two forms of
generalization. First, UniVideo supports task composition, such as combining
editing with style transfer, by integrating multiple capabilities within a
single instruction. Second, even without explicit training on free-form video
editing, UniVideo transfers its editing capability from large-scale image
editing data to this setting, handling unseen instructions such as
green-screening characters or changing materials within a video. Beyond these
core capabilities, UniVideo also supports visual-prompt-based video generation,
where the MLLM interprets visual prompts and guides the MMDiT during synthesis.
To foster future research, we will release our model and code.