UniVid: Унификация задач компьютерного зрения с использованием предобученных моделей генерации видео
UniVid: Unifying Vision Tasks with Pre-trained Video Generation Models
September 26, 2025
Авторы: Lan Chen, Yuchao Gu, Qi Mao
cs.AI
Аннотация
Крупные языковые модели, обученные на обширных корпусах текстов, успешно объединяют разнообразные лингвистические задачи в рамках единой генеративной архитектуры. Вдохновленные этим, недавние работы, такие как Large Vision Model (LVM), расширяют эту парадигму на область зрения, организуя задачи в последовательные визуальные предложения, где визуальные подсказки служат контекстом для управления выходными данными. Однако такое моделирование требует предварительного обучения, специфичного для задач, охватывающего различные модальности и источники, что является затратным и ограничивает масштабируемость на неизвестные задачи. Учитывая, что предварительно обученные модели генерации видео по своей природе захватывают временные последовательности, мы исследуем более унифицированную и масштабируемую альтернативу: может ли предварительно обученная модель генерации видео адаптироваться к разнообразным задачам обработки изображений и видео? Чтобы ответить на этот вопрос, мы предлагаем UniVid — фреймворк, который дообучает видео-диффузионный трансформер для выполнения различных задач в области зрения без специфичных для задач модификаций. Задачи представляются в виде визуальных предложений, где последовательность контекста определяет как задачу, так и ожидаемую модальность выходных данных. Мы оцениваем обобщающую способность UniVid с двух перспектив: (1) кросс-модальный вывод с контекстами, состоящими как из изображений, так и из видео, выходя за рамки унимодальной настройки LVM; (2) кросс-источниковые задачи, охватывающие как естественные, так и аннотированные данные, без предварительного обучения на множестве источников. Несмотря на обучение исключительно на естественных видеоданных, UniVid демонстрирует хорошую обобщающую способность в обоих сценариях. Примечательно, что задачи понимания и генерации могут легко переключаться простым изменением порядка визуальных предложений в этой парадигме. Эти результаты подчеркивают потенциал предварительно обученных моделей генерации видео служить масштабируемой и унифицированной основой для моделирования в области зрения. Наш код будет доступен по адресу https://github.com/CUC-MIPG/UniVid.
English
Large language models, trained on extensive corpora, successfully unify
diverse linguistic tasks within a single generative framework. Inspired by
this, recent works like Large Vision Model (LVM) extend this paradigm to vision
by organizing tasks into sequential visual sentences, where visual prompts
serve as the context to guide outputs. However, such modeling requires
task-specific pre-training across modalities and sources, which is costly and
limits scalability to unseen tasks. Given that pre-trained video generation
models inherently capture temporal sequence dependencies, we explore a more
unified and scalable alternative: can a pre-trained video generation model
adapt to diverse image and video tasks? To answer this, we propose UniVid, a
framework that fine-tunes a video diffusion transformer to handle various
vision tasks without task-specific modifications. Tasks are represented as
visual sentences, where the context sequence defines both the task and the
expected output modality. We evaluate the generalization of UniVid from two
perspectives: (1) cross-modal inference with contexts composed of both images
and videos, extending beyond LVM's uni-modal setting; (2) cross-source tasks
from natural to annotated data, without multi-source pre-training. Despite
being trained solely on natural video data, UniVid generalizes well in both
settings. Notably, understanding and generation tasks can easily switch by
simply reversing the visual sentence order in this paradigm. These findings
highlight the potential of pre-trained video generation models to serve as a
scalable and unified foundation for vision modeling. Our code will be released
at https://github.com/CUC-MIPG/UniVid.