UniVid : Unification des tâches visuelles grâce à des modèles pré-entraînés de génération vidéo
UniVid: Unifying Vision Tasks with Pre-trained Video Generation Models
September 26, 2025
papers.authors: Lan Chen, Yuchao Gu, Qi Mao
cs.AI
papers.abstract
Les grands modèles de langage, entraînés sur des corpus étendus, parviennent à unifier avec succès diverses tâches linguistiques dans un cadre génératif unique. Inspirés par cela, des travaux récents comme le Large Vision Model (LVM) étendent ce paradigme à la vision en organisant les tâches en séquences de phrases visuelles, où les invites visuelles servent de contexte pour guider les sorties. Cependant, une telle modélisation nécessite un pré-entraînement spécifique aux tâches à travers les modalités et les sources, ce qui est coûteux et limite l'évolutivité face à des tâches inédites. Étant donné que les modèles de génération de vidéos pré-entraînés capturent intrinsèquement les dépendances des séquences temporelles, nous explorons une alternative plus unifiée et évolutive : un modèle de génération de vidéos pré-entraîné peut-il s'adapter à diverses tâches d'images et de vidéos ? Pour répondre à cette question, nous proposons UniVid, un cadre qui affine un transformateur de diffusion vidéo pour gérer diverses tâches visuelles sans modifications spécifiques aux tâches. Les tâches sont représentées comme des phrases visuelles, où la séquence contextuelle définit à la fois la tâche et la modalité de sortie attendue. Nous évaluons la généralisation d'UniVid sous deux angles : (1) l'inférence cross-modale avec des contextes composés à la fois d'images et de vidéos, allant au-delà du cadre uni-modal du LVM ; (2) les tâches cross-sources allant des données naturelles aux données annotées, sans pré-entraînement multi-sources. Bien qu'entraîné uniquement sur des données vidéo naturelles, UniVid généralise bien dans les deux contextes. Notamment, les tâches de compréhension et de génération peuvent facilement être inversées en inversant simplement l'ordre des phrases visuelles dans ce paradigme. Ces résultats mettent en lumière le potentiel des modèles de génération de vidéos pré-entraînés à servir de fondation évolutive et unifiée pour la modélisation visuelle. Notre code sera disponible à l'adresse https://github.com/CUC-MIPG/UniVid.
English
Large language models, trained on extensive corpora, successfully unify
diverse linguistic tasks within a single generative framework. Inspired by
this, recent works like Large Vision Model (LVM) extend this paradigm to vision
by organizing tasks into sequential visual sentences, where visual prompts
serve as the context to guide outputs. However, such modeling requires
task-specific pre-training across modalities and sources, which is costly and
limits scalability to unseen tasks. Given that pre-trained video generation
models inherently capture temporal sequence dependencies, we explore a more
unified and scalable alternative: can a pre-trained video generation model
adapt to diverse image and video tasks? To answer this, we propose UniVid, a
framework that fine-tunes a video diffusion transformer to handle various
vision tasks without task-specific modifications. Tasks are represented as
visual sentences, where the context sequence defines both the task and the
expected output modality. We evaluate the generalization of UniVid from two
perspectives: (1) cross-modal inference with contexts composed of both images
and videos, extending beyond LVM's uni-modal setting; (2) cross-source tasks
from natural to annotated data, without multi-source pre-training. Despite
being trained solely on natural video data, UniVid generalizes well in both
settings. Notably, understanding and generation tasks can easily switch by
simply reversing the visual sentence order in this paradigm. These findings
highlight the potential of pre-trained video generation models to serve as a
scalable and unified foundation for vision modeling. Our code will be released
at https://github.com/CUC-MIPG/UniVid.