Instructions explicatives : Vers une compréhension unifiée des tâches de vision et une généralisation sans apprentissage.Explanatory Instructions: Towards Unified Vision Tasks Understanding and
Zero-shot Generalization
La Vision par Ordinateur (Computer Vision - CV) n'a pas encore pleinement atteint la généralisation des tâches sans entraînement observée dans le Traitement du Langage Naturel (Natural Language Processing - NLP), malgré le suivi de nombreuses étapes établies dans le NLP, telles que les grands modèles de transformer, l'entraînement préalable approfondi et le paradigme d'auto-régression, entre autres. Dans cet article, nous explorons l'idée selon laquelle la CV adopte des définitions de tâches discrètes et terminologiques (par exemple, "segmentation d'image"), qui pourraient constituer un obstacle clé à la généralisation des tâches sans entraînement. Notre hypothèse est que sans une véritable compréhension des tâches précédemment rencontrées - en raison de ces définitions terminologiques - les modèles profonds ont du mal à généraliser à de nouvelles tâches. Pour vérifier cela, nous introduisons des Instructions Explicatives, qui fournissent une manière intuitive de définir les objectifs des tâches de CV à travers des transformations linguistiques détaillées des images d'entrée vers les sorties. Nous créons un ensemble de données à grande échelle comprenant 12 millions de triplets "entrée d'image vers instruction explicative vers sortie", et entraînons un modèle vision-langage basé sur l'auto-régression (AR-based VLM) qui prend à la fois les images et les instructions explicatives en entrée. En apprenant à suivre ces instructions, l'AR-based VLM atteint des capacités de généralisation sans entraînement au niveau de l'instruction pour les tâches précédemment rencontrées et démontre une forte généralisation sans entraînement pour les tâches de CV non vues. Le code et l'ensemble de données seront disponibles publiquement sur notre dépôt GitHub.