Instructions explicatives : Vers une compréhension unifiée des tâches de vision et une généralisation sans apprentissage.
Explanatory Instructions: Towards Unified Vision Tasks Understanding and Zero-shot Generalization
December 24, 2024
Auteurs: Yang Shen, Xiu-Shen Wei, Yifan Sun, Yuxin Song, Tao Yuan, Jian Jin, Heyang Xu, Yazhou Yao, Errui Ding
cs.AI
Résumé
La Vision par Ordinateur (Computer Vision - CV) n'a pas encore pleinement atteint la généralisation des tâches sans entraînement observée dans le Traitement du Langage Naturel (Natural Language Processing - NLP), malgré le suivi de nombreuses étapes établies dans le NLP, telles que les grands modèles de transformer, l'entraînement préalable approfondi et le paradigme d'auto-régression, entre autres. Dans cet article, nous explorons l'idée selon laquelle la CV adopte des définitions de tâches discrètes et terminologiques (par exemple, "segmentation d'image"), qui pourraient constituer un obstacle clé à la généralisation des tâches sans entraînement. Notre hypothèse est que sans une véritable compréhension des tâches précédemment rencontrées - en raison de ces définitions terminologiques - les modèles profonds ont du mal à généraliser à de nouvelles tâches. Pour vérifier cela, nous introduisons des Instructions Explicatives, qui fournissent une manière intuitive de définir les objectifs des tâches de CV à travers des transformations linguistiques détaillées des images d'entrée vers les sorties. Nous créons un ensemble de données à grande échelle comprenant 12 millions de triplets "entrée d'image vers instruction explicative vers sortie", et entraînons un modèle vision-langage basé sur l'auto-régression (AR-based VLM) qui prend à la fois les images et les instructions explicatives en entrée. En apprenant à suivre ces instructions, l'AR-based VLM atteint des capacités de généralisation sans entraînement au niveau de l'instruction pour les tâches précédemment rencontrées et démontre une forte généralisation sans entraînement pour les tâches de CV non vues. Le code et l'ensemble de données seront disponibles publiquement sur notre dépôt GitHub.
English
Computer Vision (CV) has yet to fully achieve the zero-shot task
generalization observed in Natural Language Processing (NLP), despite following
many of the milestones established in NLP, such as large transformer models,
extensive pre-training, and the auto-regression paradigm, among others. In this
paper, we explore the idea that CV adopts discrete and terminological task
definitions (\eg, ``image segmentation''), which may be a key barrier to
zero-shot task generalization. Our hypothesis is that without truly
understanding previously-seen tasks--due to these terminological
definitions--deep models struggle to generalize to novel tasks. To verify this,
we introduce Explanatory Instructions, which provide an intuitive way to define
CV task objectives through detailed linguistic transformations from input
images to outputs. We create a large-scale dataset comprising 12 million
``image input to explanatory instruction to output'' triplets, and train
an auto-regressive-based vision-language model (AR-based VLM) that takes both
images and explanatory instructions as input. By learning to follow these
instructions, the AR-based VLM achieves instruction-level zero-shot
capabilities for previously-seen tasks and demonstrates strong zero-shot
generalization for unseen CV tasks. Code and dataset will be openly available
on our GitHub repository.Summary
AI-Generated Summary