ChatPaper.aiChatPaper

Instructions explicatives : Vers une compréhension unifiée des tâches de vision et une généralisation sans apprentissage.

Explanatory Instructions: Towards Unified Vision Tasks Understanding and Zero-shot Generalization

December 24, 2024
Auteurs: Yang Shen, Xiu-Shen Wei, Yifan Sun, Yuxin Song, Tao Yuan, Jian Jin, Heyang Xu, Yazhou Yao, Errui Ding
cs.AI

Résumé

La Vision par Ordinateur (Computer Vision - CV) n'a pas encore pleinement atteint la généralisation des tâches sans entraînement observée dans le Traitement du Langage Naturel (Natural Language Processing - NLP), malgré le suivi de nombreuses étapes établies dans le NLP, telles que les grands modèles de transformer, l'entraînement préalable approfondi et le paradigme d'auto-régression, entre autres. Dans cet article, nous explorons l'idée selon laquelle la CV adopte des définitions de tâches discrètes et terminologiques (par exemple, "segmentation d'image"), qui pourraient constituer un obstacle clé à la généralisation des tâches sans entraînement. Notre hypothèse est que sans une véritable compréhension des tâches précédemment rencontrées - en raison de ces définitions terminologiques - les modèles profonds ont du mal à généraliser à de nouvelles tâches. Pour vérifier cela, nous introduisons des Instructions Explicatives, qui fournissent une manière intuitive de définir les objectifs des tâches de CV à travers des transformations linguistiques détaillées des images d'entrée vers les sorties. Nous créons un ensemble de données à grande échelle comprenant 12 millions de triplets "entrée d'image vers instruction explicative vers sortie", et entraînons un modèle vision-langage basé sur l'auto-régression (AR-based VLM) qui prend à la fois les images et les instructions explicatives en entrée. En apprenant à suivre ces instructions, l'AR-based VLM atteint des capacités de généralisation sans entraînement au niveau de l'instruction pour les tâches précédemment rencontrées et démontre une forte généralisation sans entraînement pour les tâches de CV non vues. Le code et l'ensemble de données seront disponibles publiquement sur notre dépôt GitHub.
English
Computer Vision (CV) has yet to fully achieve the zero-shot task generalization observed in Natural Language Processing (NLP), despite following many of the milestones established in NLP, such as large transformer models, extensive pre-training, and the auto-regression paradigm, among others. In this paper, we explore the idea that CV adopts discrete and terminological task definitions (\eg, ``image segmentation''), which may be a key barrier to zero-shot task generalization. Our hypothesis is that without truly understanding previously-seen tasks--due to these terminological definitions--deep models struggle to generalize to novel tasks. To verify this, we introduce Explanatory Instructions, which provide an intuitive way to define CV task objectives through detailed linguistic transformations from input images to outputs. We create a large-scale dataset comprising 12 million ``image input to explanatory instruction to output'' triplets, and train an auto-regressive-based vision-language model (AR-based VLM) that takes both images and explanatory instructions as input. By learning to follow these instructions, the AR-based VLM achieves instruction-level zero-shot capabilities for previously-seen tasks and demonstrates strong zero-shot generalization for unseen CV tasks. Code and dataset will be openly available on our GitHub repository.

Summary

AI-Generated Summary

PDF762December 31, 2024