GiT: Verso un Vision Transformer Generalista attraverso un'Interfaccia Linguistica Universale

Abstract

Questo articolo propone un framework semplice ma efficace, chiamato GiT, simultaneamente applicabile a vari compiti visivi utilizzando esclusivamente un ViT standard. Ispirati dall'universalità dell'architettura Multi-layer Transformer (ad esempio, GPT) ampiamente utilizzata nei grandi modelli linguistici (LLM), cerchiamo di ampliarne l'ambito per servire come un potente modello di base visivo (VFM). Tuttavia, a differenza della modellazione linguistica, i compiti visivi richiedono tipicamente moduli specifici, come le teste per il rilevamento delle bounding box e i decoder di pixel per la segmentazione, ostacolando notevolmente l'applicazione dei potenti trasformatori multi-strato nel dominio visivo. Per risolvere questo problema, progettiamo un'interfaccia linguistica universale che consente il successo del decoding auto-regressivo per unificare abilmente vari compiti visivi, dalla comprensione a livello di immagine (ad esempio, captioning), alla percezione sparsa (ad esempio, rilevamento), fino alla predizione densa (ad esempio, segmentazione). Sulla base di questi progetti, l'intero modello è composto esclusivamente da un ViT, senza alcuna aggiunta specifica, offrendo una notevole semplificazione architetturale. GiT è un modello visivo multi-task, addestrato congiuntamente su cinque benchmark rappresentativi senza fine-tuning specifico per compito. Interessantemente, il nostro GiT stabilisce un nuovo benchmark nelle prestazioni generaliste e favorisce un miglioramento reciproco tra i compiti, portando a significativi miglioramenti rispetto all'addestramento isolato. Ciò riflette un impatto simile osservato negli LLM. Arricchendo ulteriormente l'addestramento con 27 dataset, GiT ottiene forti risultati zero-shot su vari compiti. Grazie al suo design semplice, questo paradigma promette di ridurre il divario architetturale tra visione e linguaggio. Codice e modelli saranno disponibili su https://github.com/Haiyang-W/GiT.

English

This paper proposes a simple, yet effective framework, called GiT, simultaneously applicable for various vision tasks only with a vanilla ViT. Motivated by the universality of the Multi-layer Transformer architecture (e.g, GPT) widely used in large language models (LLMs), we seek to broaden its scope to serve as a powerful vision foundation model (VFM). However, unlike language modeling, visual tasks typically require specific modules, such as bounding box heads for detection and pixel decoders for segmentation, greatly hindering the application of powerful multi-layer transformers in the vision domain. To solve this, we design a universal language interface that empowers the successful auto-regressive decoding to adeptly unify various visual tasks, from image-level understanding (e.g., captioning), over sparse perception (e.g., detection), to dense prediction (e.g., segmentation). Based on the above designs, the entire model is composed solely of a ViT, without any specific additions, offering a remarkable architectural simplification. GiT is a multi-task visual model, jointly trained across five representative benchmarks without task-specific fine-tuning. Interestingly, our GiT builds a new benchmark in generalist performance, and fosters mutual enhancement across tasks, leading to significant improvements compared to isolated training. This reflects a similar impact observed in LLMs. Further enriching training with 27 datasets, GiT achieves strong zero-shot results over various tasks. Due to its simple design, this paradigm holds promise for narrowing the architectural gap between vision and language. Code and models will be available at https://github.com/Haiyang-W/GiT.

GiT: Verso un Vision Transformer Generalista attraverso un'Interfaccia Linguistica Universale

GiT: Towards Generalist Vision Transformer through Universal Language Interface

Abstract

Support