Instructions explicatives : Vers une compréhension unifiée des tùches de vision et une généralisation sans apprentissage.Explanatory Instructions: Towards Unified Vision Tasks Understanding and
Zero-shot Generalization
La Vision par Ordinateur (Computer Vision - CV) n'a pas encore pleinement atteint la généralisation des tùches sans entraßnement observée dans le Traitement du Langage Naturel (Natural Language Processing - NLP), malgré le suivi de nombreuses étapes établies dans le NLP, telles que les grands modÚles de transformer, l'entraßnement préalable approfondi et le paradigme d'auto-régression, entre autres. Dans cet article, nous explorons l'idée selon laquelle la CV adopte des définitions de tùches discrÚtes et terminologiques (par exemple, "segmentation d'image"), qui pourraient constituer un obstacle clé à la généralisation des tùches sans entraßnement. Notre hypothÚse est que sans une véritable compréhension des tùches précédemment rencontrées - en raison de ces définitions terminologiques - les modÚles profonds ont du mal à généraliser à de nouvelles tùches. Pour vérifier cela, nous introduisons des Instructions Explicatives, qui fournissent une maniÚre intuitive de définir les objectifs des tùches de CV à travers des transformations linguistiques détaillées des images d'entrée vers les sorties. Nous créons un ensemble de données à grande échelle comprenant 12 millions de triplets "entrée d'image vers instruction explicative vers sortie", et entraßnons un modÚle vision-langage basé sur l'auto-régression (AR-based VLM) qui prend à la fois les images et les instructions explicatives en entrée. En apprenant à suivre ces instructions, l'AR-based VLM atteint des capacités de généralisation sans entraßnement au niveau de l'instruction pour les tùches précédemment rencontrées et démontre une forte généralisation sans entraßnement pour les tùches de CV non vues. Le code et l'ensemble de données seront disponibles publiquement sur notre dépÎt GitHub.