UniVid : Unification des tâches visuelles grâce à des modèles pré-entraînés de génération vidéo

papers.abstract

Les grands modèles de langage, entraînés sur des corpus étendus, parviennent à unifier avec succès diverses tâches linguistiques dans un cadre génératif unique. Inspirés par cela, des travaux récents comme le Large Vision Model (LVM) étendent ce paradigme à la vision en organisant les tâches en séquences de phrases visuelles, où les invites visuelles servent de contexte pour guider les sorties. Cependant, une telle modélisation nécessite un pré-entraînement spécifique aux tâches à travers les modalités et les sources, ce qui est coûteux et limite l'évolutivité face à des tâches inédites. Étant donné que les modèles de génération de vidéos pré-entraînés capturent intrinsèquement les dépendances des séquences temporelles, nous explorons une alternative plus unifiée et évolutive : un modèle de génération de vidéos pré-entraîné peut-il s'adapter à diverses tâches d'images et de vidéos ? Pour répondre à cette question, nous proposons UniVid, un cadre qui affine un transformateur de diffusion vidéo pour gérer diverses tâches visuelles sans modifications spécifiques aux tâches. Les tâches sont représentées comme des phrases visuelles, où la séquence contextuelle définit à la fois la tâche et la modalité de sortie attendue. Nous évaluons la généralisation d'UniVid sous deux angles : (1) l'inférence cross-modale avec des contextes composés à la fois d'images et de vidéos, allant au-delà du cadre uni-modal du LVM ; (2) les tâches cross-sources allant des données naturelles aux données annotées, sans pré-entraînement multi-sources. Bien qu'entraîné uniquement sur des données vidéo naturelles, UniVid généralise bien dans les deux contextes. Notamment, les tâches de compréhension et de génération peuvent facilement être inversées en inversant simplement l'ordre des phrases visuelles dans ce paradigme. Ces résultats mettent en lumière le potentiel des modèles de génération de vidéos pré-entraînés à servir de fondation évolutive et unifiée pour la modélisation visuelle. Notre code sera disponible à l'adresse https://github.com/CUC-MIPG/UniVid.

English

Large language models, trained on extensive corpora, successfully unify diverse linguistic tasks within a single generative framework. Inspired by this, recent works like Large Vision Model (LVM) extend this paradigm to vision by organizing tasks into sequential visual sentences, where visual prompts serve as the context to guide outputs. However, such modeling requires task-specific pre-training across modalities and sources, which is costly and limits scalability to unseen tasks. Given that pre-trained video generation models inherently capture temporal sequence dependencies, we explore a more unified and scalable alternative: can a pre-trained video generation model adapt to diverse image and video tasks? To answer this, we propose UniVid, a framework that fine-tunes a video diffusion transformer to handle various vision tasks without task-specific modifications. Tasks are represented as visual sentences, where the context sequence defines both the task and the expected output modality. We evaluate the generalization of UniVid from two perspectives: (1) cross-modal inference with contexts composed of both images and videos, extending beyond LVM's uni-modal setting; (2) cross-source tasks from natural to annotated data, without multi-source pre-training. Despite being trained solely on natural video data, UniVid generalizes well in both settings. Notably, understanding and generation tasks can easily switch by simply reversing the visual sentence order in this paradigm. These findings highlight the potential of pre-trained video generation models to serve as a scalable and unified foundation for vision modeling. Our code will be released at https://github.com/CUC-MIPG/UniVid.

UniVid : Unification des tâches visuelles grâce à des modèles pré-entraînés de génération vidéo

UniVid: Unifying Vision Tasks with Pre-trained Video Generation Models

papers.abstract

Support