GiT : Vers un Transformateur Visionnaire Généraliste via une Interface Langagière Universelle
GiT: Towards Generalist Vision Transformer through Universal Language Interface
March 14, 2024
Auteurs: Haiyang Wang, Hao Tang, Li Jiang, Shaoshuai Shi, Muhammad Ferjad Naeem, Hongsheng Li, Bernt Schiele, Liwei Wang
cs.AI
Résumé
Cet article propose un cadre simple mais efficace, appelé GiT, simultanément applicable à diverses tâches visuelles en utilisant uniquement un ViT standard. Motivés par l'universalité de l'architecture Transformer multicouche (par exemple, GPT) largement utilisée dans les grands modèles de langage (LLMs), nous cherchons à élargir son champ d'application pour servir de modèle de base visuel puissant (VFM). Cependant, contrairement à la modélisation du langage, les tâches visuelles nécessitent généralement des modules spécifiques, tels que des têtes de boîtes englobantes pour la détection et des décodeurs de pixels pour la segmentation, ce qui entrave grandement l'application des transformateurs multicouches puissants dans le domaine visuel. Pour résoudre ce problème, nous concevons une interface linguistique universelle qui permet un décodage auto-régressif réussi pour unifier habilement diverses tâches visuelles, allant de la compréhension au niveau de l'image (par exemple, la légendation), à la perception parcimonieuse (par exemple, la détection), jusqu'à la prédiction dense (par exemple, la segmentation). Sur la base de ces conceptions, l'ensemble du modèle est composé uniquement d'un ViT, sans ajouts spécifiques, offrant une simplification architecturale remarquable. GiT est un modèle visuel multitâche, entraîné conjointement sur cinq benchmarks représentatifs sans ajustement spécifique à la tâche. Fait intéressant, notre GiT établit un nouveau benchmark en termes de performance généraliste et favorise une amélioration mutuelle entre les tâches, conduisant à des améliorations significatives par rapport à un entraînement isolé. Cela reflète un impact similaire observé dans les LLMs. En enrichissant davantage l'entraînement avec 27 ensembles de données, GiT obtient des résultats solides en zéro-shot sur diverses tâches. Grâce à sa conception simple, ce paradigme promet de réduire l'écart architectural entre la vision et le langage. Le code et les modèles seront disponibles à l'adresse https://github.com/Haiyang-W/GiT.
English
This paper proposes a simple, yet effective framework, called GiT,
simultaneously applicable for various vision tasks only with a vanilla ViT.
Motivated by the universality of the Multi-layer Transformer architecture (e.g,
GPT) widely used in large language models (LLMs), we seek to broaden its scope
to serve as a powerful vision foundation model (VFM). However, unlike language
modeling, visual tasks typically require specific modules, such as bounding box
heads for detection and pixel decoders for segmentation, greatly hindering the
application of powerful multi-layer transformers in the vision domain. To solve
this, we design a universal language interface that empowers the successful
auto-regressive decoding to adeptly unify various visual tasks, from
image-level understanding (e.g., captioning), over sparse perception (e.g.,
detection), to dense prediction (e.g., segmentation). Based on the above
designs, the entire model is composed solely of a ViT, without any specific
additions, offering a remarkable architectural simplification. GiT is a
multi-task visual model, jointly trained across five representative benchmarks
without task-specific fine-tuning. Interestingly, our GiT builds a new
benchmark in generalist performance, and fosters mutual enhancement across
tasks, leading to significant improvements compared to isolated training. This
reflects a similar impact observed in LLMs. Further enriching training with 27
datasets, GiT achieves strong zero-shot results over various tasks. Due to its
simple design, this paradigm holds promise for narrowing the architectural gap
between vision and language. Code and models will be available at
https://github.com/Haiyang-W/GiT.Summary
AI-Generated Summary