DICEPTION : Un modèle de diffusion généraliste pour les tâches de perception visuelle
DICEPTION: A Generalist Diffusion Model for Visual Perceptual Tasks
February 24, 2025
Auteurs: Canyu Zhao, Mingyu Liu, Huanyi Zheng, Muzhi Zhu, Zhiyue Zhao, Hao Chen, Tong He, Chunhua Shen
cs.AI
Résumé
Notre objectif principal ici est de créer un modèle de perception généraliste performant, capable de traiter plusieurs tâches tout en respectant des contraintes en termes de ressources computationnelles et de données d'entraînement. Pour y parvenir, nous avons recours à des modèles de diffusion texte-image pré-entraînés sur des milliards d'images. Nos métriques d'évaluation exhaustives démontrent que DICEPTION aborde efficacement plusieurs tâches de perception, atteignant des performances comparables aux modèles de pointe. Nous obtenons des résultats équivalents à ceux de SAM-vit-h en utilisant seulement 0,06 % de leurs données (par exemple, 600 000 contre 1 milliard d'images annotées au niveau des pixels). Inspiré par Wang et al., DICEPTION formule les sorties de diverses tâches de perception en utilisant un encodage couleur ; et nous montrons que la stratégie consistant à attribuer des couleurs aléatoires à différentes instances est très efficace à la fois pour la segmentation d'entités et la segmentation sémantique. L'unification de diverses tâches de perception en tant que génération d'images conditionnelles nous permet de tirer pleinement parti des modèles texte-image pré-entraînés. Ainsi, DICEPTION peut être entraîné de manière efficace à un coût plusieurs ordres de grandeur inférieur, par rapport aux modèles conventionnels entraînés à partir de zéro. Lors de l'adaptation de notre modèle à d'autres tâches, il ne nécessite qu'un ajustement fin sur aussi peu que 50 images et 1 % de ses paramètres. DICEPTION offre des perspectives précieuses et une solution plus prometteuse pour les modèles visuels généralistes.
English
Our primary goal here is to create a good, generalist perception model that
can tackle multiple tasks, within limits on computational resources and
training data. To achieve this, we resort to text-to-image diffusion models
pre-trained on billions of images. Our exhaustive evaluation metrics
demonstrate that DICEPTION effectively tackles multiple perception tasks,
achieving performance on par with state-of-the-art models. We achieve results
on par with SAM-vit-h using only 0.06% of their data (e.g., 600K vs. 1B
pixel-level annotated images). Inspired by Wang et al., DICEPTION formulates
the outputs of various perception tasks using color encoding; and we show that
the strategy of assigning random colors to different instances is highly
effective in both entity segmentation and semantic segmentation. Unifying
various perception tasks as conditional image generation enables us to fully
leverage pre-trained text-to-image models. Thus, DICEPTION can be efficiently
trained at a cost of orders of magnitude lower, compared to conventional models
that were trained from scratch. When adapting our model to other tasks, it only
requires fine-tuning on as few as 50 images and 1% of its parameters. DICEPTION
provides valuable insights and a more promising solution for visual generalist
models.Summary
AI-Generated Summary