ChatPaper.aiChatPaper

UniVid: Унификация задач компьютерного зрения с использованием предобученных моделей генерации видео

UniVid: Unifying Vision Tasks with Pre-trained Video Generation Models

September 26, 2025
Авторы: Lan Chen, Yuchao Gu, Qi Mao
cs.AI

Аннотация

Крупные языковые модели, обученные на обширных корпусах текстов, успешно объединяют разнообразные лингвистические задачи в рамках единой генеративной архитектуры. Вдохновленные этим, недавние работы, такие как Large Vision Model (LVM), расширяют эту парадигму на область зрения, организуя задачи в последовательные визуальные предложения, где визуальные подсказки служат контекстом для управления выходными данными. Однако такое моделирование требует предварительного обучения, специфичного для задач, охватывающего различные модальности и источники, что является затратным и ограничивает масштабируемость на неизвестные задачи. Учитывая, что предварительно обученные модели генерации видео по своей природе захватывают временные последовательности, мы исследуем более унифицированную и масштабируемую альтернативу: может ли предварительно обученная модель генерации видео адаптироваться к разнообразным задачам обработки изображений и видео? Чтобы ответить на этот вопрос, мы предлагаем UniVid — фреймворк, который дообучает видео-диффузионный трансформер для выполнения различных задач в области зрения без специфичных для задач модификаций. Задачи представляются в виде визуальных предложений, где последовательность контекста определяет как задачу, так и ожидаемую модальность выходных данных. Мы оцениваем обобщающую способность UniVid с двух перспектив: (1) кросс-модальный вывод с контекстами, состоящими как из изображений, так и из видео, выходя за рамки унимодальной настройки LVM; (2) кросс-источниковые задачи, охватывающие как естественные, так и аннотированные данные, без предварительного обучения на множестве источников. Несмотря на обучение исключительно на естественных видеоданных, UniVid демонстрирует хорошую обобщающую способность в обоих сценариях. Примечательно, что задачи понимания и генерации могут легко переключаться простым изменением порядка визуальных предложений в этой парадигме. Эти результаты подчеркивают потенциал предварительно обученных моделей генерации видео служить масштабируемой и унифицированной основой для моделирования в области зрения. Наш код будет доступен по адресу https://github.com/CUC-MIPG/UniVid.
English
Large language models, trained on extensive corpora, successfully unify diverse linguistic tasks within a single generative framework. Inspired by this, recent works like Large Vision Model (LVM) extend this paradigm to vision by organizing tasks into sequential visual sentences, where visual prompts serve as the context to guide outputs. However, such modeling requires task-specific pre-training across modalities and sources, which is costly and limits scalability to unseen tasks. Given that pre-trained video generation models inherently capture temporal sequence dependencies, we explore a more unified and scalable alternative: can a pre-trained video generation model adapt to diverse image and video tasks? To answer this, we propose UniVid, a framework that fine-tunes a video diffusion transformer to handle various vision tasks without task-specific modifications. Tasks are represented as visual sentences, where the context sequence defines both the task and the expected output modality. We evaluate the generalization of UniVid from two perspectives: (1) cross-modal inference with contexts composed of both images and videos, extending beyond LVM's uni-modal setting; (2) cross-source tasks from natural to annotated data, without multi-source pre-training. Despite being trained solely on natural video data, UniVid generalizes well in both settings. Notably, understanding and generation tasks can easily switch by simply reversing the visual sentence order in this paradigm. These findings highlight the potential of pre-trained video generation models to serve as a scalable and unified foundation for vision modeling. Our code will be released at https://github.com/CUC-MIPG/UniVid.
PDF112September 29, 2025