GiT: Op weg naar een generalistische Vision Transformer via een universele taalinterface
GiT: Towards Generalist Vision Transformer through Universal Language Interface
March 14, 2024
Auteurs: Haiyang Wang, Hao Tang, Li Jiang, Shaoshuai Shi, Muhammad Ferjad Naeem, Hongsheng Li, Bernt Schiele, Liwei Wang
cs.AI
Samenvatting
Dit artikel introduceert een eenvoudig, maar effectief framework genaamd GiT, dat gelijktijdig toepasbaar is voor diverse visuele taken met alleen een standaard ViT (Vision Transformer). Geïnspireerd door de universaliteit van de Multi-layer Transformer-architectuur (bijvoorbeeld GPT) die veel wordt gebruikt in grote taalmodellen (LLMs), streven we ernaar om het toepassingsgebied ervan uit te breiden om te dienen als een krachtig visueel foundation model (VFM). In tegenstelling tot taalmodellering vereisen visuele taken echter meestal specifieke modules, zoals bounding box heads voor detectie en pixeldecoders voor segmentatie, wat de toepassing van krachtige multi-layer transformers in het visuele domein sterk belemmert. Om dit op te lossen, ontwerpen we een universele taalinterface die het succesvolle auto-regressieve decoderen mogelijk maakt om diverse visuele taken te verenigen, van beeldniveau-begrip (bijvoorbeeld bijschriften), via sparse perceptie (bijvoorbeeld detectie), tot dense voorspelling (bijvoorbeeld segmentatie). Op basis van deze ontwerpen bestaat het gehele model uitsluitend uit een ViT, zonder specifieke toevoegingen, wat een opmerkelijke architectonische vereenvoudiging biedt. GiT is een multi-task visueel model, gezamenlijk getraind over vijf representatieve benchmarks zonder taakspecifieke fine-tuning. Interessant genoeg vestigt onze GiT een nieuwe benchmark in generalistische prestaties en bevordert het wederzijdse verbetering tussen taken, wat leidt tot significante verbeteringen in vergelijking met geïsoleerde training. Dit weerspiegelt een vergelijkbaar effect dat wordt waargenomen in LLMs. Door de training verder te verrijken met 27 datasets, behaalt GiT sterke zero-shot resultaten over diverse taken. Vanwege het eenvoudige ontwerp belooft dit paradigma de architectonische kloof tussen visie en taal te verkleinen. Code en modellen zullen beschikbaar zijn op https://github.com/Haiyang-W/GiT.
English
This paper proposes a simple, yet effective framework, called GiT,
simultaneously applicable for various vision tasks only with a vanilla ViT.
Motivated by the universality of the Multi-layer Transformer architecture (e.g,
GPT) widely used in large language models (LLMs), we seek to broaden its scope
to serve as a powerful vision foundation model (VFM). However, unlike language
modeling, visual tasks typically require specific modules, such as bounding box
heads for detection and pixel decoders for segmentation, greatly hindering the
application of powerful multi-layer transformers in the vision domain. To solve
this, we design a universal language interface that empowers the successful
auto-regressive decoding to adeptly unify various visual tasks, from
image-level understanding (e.g., captioning), over sparse perception (e.g.,
detection), to dense prediction (e.g., segmentation). Based on the above
designs, the entire model is composed solely of a ViT, without any specific
additions, offering a remarkable architectural simplification. GiT is a
multi-task visual model, jointly trained across five representative benchmarks
without task-specific fine-tuning. Interestingly, our GiT builds a new
benchmark in generalist performance, and fosters mutual enhancement across
tasks, leading to significant improvements compared to isolated training. This
reflects a similar impact observed in LLMs. Further enriching training with 27
datasets, GiT achieves strong zero-shot results over various tasks. Due to its
simple design, this paradigm holds promise for narrowing the architectural gap
between vision and language. Code and models will be available at
https://github.com/Haiyang-W/GiT.