ChatPaper.aiChatPaper

UniVid: Unificando Tarefas Visuais com Modelos Pré-treinados de Geração de Vídeo

UniVid: Unifying Vision Tasks with Pre-trained Video Generation Models

September 26, 2025
Autores: Lan Chen, Yuchao Gu, Qi Mao
cs.AI

Resumo

Modelos de linguagem de grande escala, treinados em extensos corpora, unificam com sucesso diversas tarefas linguísticas dentro de um único framework generativo. Inspirados por isso, trabalhos recentes como o Large Vision Model (LVM) estendem esse paradigma para a visão, organizando tarefas em sentenças visuais sequenciais, onde prompts visuais servem como contexto para guiar as saídas. No entanto, tal modelagem requer pré-treinamento específico para cada tarefa em diferentes modalidades e fontes, o que é custoso e limita a escalabilidade para tarefas não vistas. Dado que modelos pré-treinados de geração de vídeo capturam inerentemente dependências de sequências temporais, exploramos uma alternativa mais unificada e escalável: um modelo pré-treinado de geração de vídeo pode se adaptar a diversas tarefas de imagem e vídeo? Para responder a isso, propomos o UniVid, um framework que ajusta um transformer de difusão de vídeo para lidar com várias tarefas visuais sem modificações específicas para cada tarefa. As tarefas são representadas como sentenças visuais, onde a sequência de contexto define tanto a tarefa quanto a modalidade de saída esperada. Avaliamos a generalização do UniVid a partir de duas perspectivas: (1) inferência cruzada de modalidades com contextos compostos por imagens e vídeos, indo além do cenário unimodal do LVM; (2) tarefas cruzadas de fontes, de dados naturais para anotados, sem pré-treinamento multi-fonte. Apesar de ser treinado apenas em dados de vídeo naturais, o UniVid generaliza bem em ambos os cenários. Notavelmente, tarefas de compreensão e geração podem ser facilmente alternadas simplesmente invertendo a ordem da sentença visual nesse paradigma. Esses achados destacam o potencial de modelos pré-treinados de geração de vídeo para servir como uma base escalável e unificada para modelagem visual. Nosso código será liberado em https://github.com/CUC-MIPG/UniVid.
English
Large language models, trained on extensive corpora, successfully unify diverse linguistic tasks within a single generative framework. Inspired by this, recent works like Large Vision Model (LVM) extend this paradigm to vision by organizing tasks into sequential visual sentences, where visual prompts serve as the context to guide outputs. However, such modeling requires task-specific pre-training across modalities and sources, which is costly and limits scalability to unseen tasks. Given that pre-trained video generation models inherently capture temporal sequence dependencies, we explore a more unified and scalable alternative: can a pre-trained video generation model adapt to diverse image and video tasks? To answer this, we propose UniVid, a framework that fine-tunes a video diffusion transformer to handle various vision tasks without task-specific modifications. Tasks are represented as visual sentences, where the context sequence defines both the task and the expected output modality. We evaluate the generalization of UniVid from two perspectives: (1) cross-modal inference with contexts composed of both images and videos, extending beyond LVM's uni-modal setting; (2) cross-source tasks from natural to annotated data, without multi-source pre-training. Despite being trained solely on natural video data, UniVid generalizes well in both settings. Notably, understanding and generation tasks can easily switch by simply reversing the visual sentence order in this paradigm. These findings highlight the potential of pre-trained video generation models to serve as a scalable and unified foundation for vision modeling. Our code will be released at https://github.com/CUC-MIPG/UniVid.
PDF142September 29, 2025