ChatPaper.aiChatPaper

DICEPTION : Un modèle de diffusion généraliste pour les tâches de perception visuelle

DICEPTION: A Generalist Diffusion Model for Visual Perceptual Tasks

February 24, 2025
Auteurs: Canyu Zhao, Mingyu Liu, Huanyi Zheng, Muzhi Zhu, Zhiyue Zhao, Hao Chen, Tong He, Chunhua Shen
cs.AI

Résumé

Notre objectif principal ici est de créer un modèle de perception généraliste performant, capable de traiter plusieurs tâches tout en respectant des contraintes en termes de ressources computationnelles et de données d'entraînement. Pour y parvenir, nous avons recours à des modèles de diffusion texte-image pré-entraînés sur des milliards d'images. Nos métriques d'évaluation exhaustives démontrent que DICEPTION aborde efficacement plusieurs tâches de perception, atteignant des performances comparables aux modèles de pointe. Nous obtenons des résultats équivalents à ceux de SAM-vit-h en utilisant seulement 0,06 % de leurs données (par exemple, 600 000 contre 1 milliard d'images annotées au niveau des pixels). Inspiré par Wang et al., DICEPTION formule les sorties de diverses tâches de perception en utilisant un encodage couleur ; et nous montrons que la stratégie consistant à attribuer des couleurs aléatoires à différentes instances est très efficace à la fois pour la segmentation d'entités et la segmentation sémantique. L'unification de diverses tâches de perception en tant que génération d'images conditionnelles nous permet de tirer pleinement parti des modèles texte-image pré-entraînés. Ainsi, DICEPTION peut être entraîné de manière efficace à un coût plusieurs ordres de grandeur inférieur, par rapport aux modèles conventionnels entraînés à partir de zéro. Lors de l'adaptation de notre modèle à d'autres tâches, il ne nécessite qu'un ajustement fin sur aussi peu que 50 images et 1 % de ses paramètres. DICEPTION offre des perspectives précieuses et une solution plus prometteuse pour les modèles visuels généralistes.
English
Our primary goal here is to create a good, generalist perception model that can tackle multiple tasks, within limits on computational resources and training data. To achieve this, we resort to text-to-image diffusion models pre-trained on billions of images. Our exhaustive evaluation metrics demonstrate that DICEPTION effectively tackles multiple perception tasks, achieving performance on par with state-of-the-art models. We achieve results on par with SAM-vit-h using only 0.06% of their data (e.g., 600K vs. 1B pixel-level annotated images). Inspired by Wang et al., DICEPTION formulates the outputs of various perception tasks using color encoding; and we show that the strategy of assigning random colors to different instances is highly effective in both entity segmentation and semantic segmentation. Unifying various perception tasks as conditional image generation enables us to fully leverage pre-trained text-to-image models. Thus, DICEPTION can be efficiently trained at a cost of orders of magnitude lower, compared to conventional models that were trained from scratch. When adapting our model to other tasks, it only requires fine-tuning on as few as 50 images and 1% of its parameters. DICEPTION provides valuable insights and a more promising solution for visual generalist models.

Summary

AI-Generated Summary

PDF533February 25, 2025