UniVid: Unificación de tareas de visión con modelos preentrenados de generación de video
UniVid: Unifying Vision Tasks with Pre-trained Video Generation Models
September 26, 2025
Autores: Lan Chen, Yuchao Gu, Qi Mao
cs.AI
Resumen
Los grandes modelos de lenguaje, entrenados en extensos corpus, logran unificar diversas tareas lingüísticas dentro de un único marco generativo. Inspirados por esto, trabajos recientes como el Modelo de Visión Grande (LVM) extienden este paradigma a la visión organizando tareas en oraciones visuales secuenciales, donde los estímulos visuales sirven como contexto para guiar las salidas. Sin embargo, este tipo de modelado requiere un preentrenamiento específico para cada tarea a través de modalidades y fuentes, lo cual es costoso y limita la escalabilidad a tareas no vistas. Dado que los modelos preentrenados de generación de video capturan inherentemente las dependencias de secuencias temporales, exploramos una alternativa más unificada y escalable: ¿puede un modelo preentrenado de generación de video adaptarse a diversas tareas de imagen y video? Para responder esto, proponemos UniVid, un marco que ajusta un transformador de difusión de video para manejar varias tareas de visión sin modificaciones específicas para cada tarea. Las tareas se representan como oraciones visuales, donde la secuencia de contexto define tanto la tarea como la modalidad de salida esperada. Evaluamos la generalización de UniVid desde dos perspectivas: (1) inferencia multimodal con contextos compuestos tanto por imágenes como videos, extendiéndose más allá del entorno unimodal de LVM; (2) tareas multifuente desde datos naturales hasta anotados, sin preentrenamiento multifuente. A pesar de estar entrenado únicamente con datos de video naturales, UniVid generaliza bien en ambos escenarios. Notablemente, las tareas de comprensión y generación pueden intercambiarse fácilmente simplemente invirtiendo el orden de la oración visual en este paradigma. Estos hallazgos resaltan el potencial de los modelos preentrenados de generación de video para servir como una base escalable y unificada para el modelado de visión. Nuestro código será publicado en https://github.com/CUC-MIPG/UniVid.
English
Large language models, trained on extensive corpora, successfully unify
diverse linguistic tasks within a single generative framework. Inspired by
this, recent works like Large Vision Model (LVM) extend this paradigm to vision
by organizing tasks into sequential visual sentences, where visual prompts
serve as the context to guide outputs. However, such modeling requires
task-specific pre-training across modalities and sources, which is costly and
limits scalability to unseen tasks. Given that pre-trained video generation
models inherently capture temporal sequence dependencies, we explore a more
unified and scalable alternative: can a pre-trained video generation model
adapt to diverse image and video tasks? To answer this, we propose UniVid, a
framework that fine-tunes a video diffusion transformer to handle various
vision tasks without task-specific modifications. Tasks are represented as
visual sentences, where the context sequence defines both the task and the
expected output modality. We evaluate the generalization of UniVid from two
perspectives: (1) cross-modal inference with contexts composed of both images
and videos, extending beyond LVM's uni-modal setting; (2) cross-source tasks
from natural to annotated data, without multi-source pre-training. Despite
being trained solely on natural video data, UniVid generalizes well in both
settings. Notably, understanding and generation tasks can easily switch by
simply reversing the visual sentence order in this paradigm. These findings
highlight the potential of pre-trained video generation models to serve as a
scalable and unified foundation for vision modeling. Our code will be released
at https://github.com/CUC-MIPG/UniVid.