ChatPaper.aiChatPaper

GiT: Rumo ao Transformador de Visão Generalista por meio de uma Interface de Linguagem Universal

GiT: Towards Generalist Vision Transformer through Universal Language Interface

March 14, 2024
Autores: Haiyang Wang, Hao Tang, Li Jiang, Shaoshuai Shi, Muhammad Ferjad Naeem, Hongsheng Li, Bernt Schiele, Liwei Wang
cs.AI

Resumo

Este artigo propõe uma estrutura simples, porém eficaz, chamada GiT, simultaneamente aplicável a diversas tarefas visuais apenas com um ViT padrão. Motivados pela universalidade da arquitetura Transformer de múltiplas camadas (por exemplo, GPT) amplamente utilizada em grandes modelos de linguagem (LLMs), buscamos ampliar seu escopo para servir como um poderoso modelo de base visual (VFM). No entanto, ao contrário da modelagem de linguagem, tarefas visuais geralmente exigem módulos específicos, como cabeças de caixas delimitadoras para detecção e decodificadores de pixels para segmentação, o que dificulta bastante a aplicação de transformadores de múltiplas camadas no domínio visual. Para resolver isso, projetamos uma interface de linguagem universal que capacita a decodificação autorregressiva bem-sucedida a unificar habilmente várias tarefas visuais, desde a compreensão em nível de imagem (por exemplo, legendagem), passando pela percepção esparsa (por exemplo, detecção), até a predição densa (por exemplo, segmentação). Com base nos designs acima, o modelo inteiro é composto apenas por um ViT, sem adições específicas, oferecendo uma simplificação arquitetônica notável. GiT é um modelo visual multitarefa, treinado conjuntamente em cinco benchmarks representativos sem ajuste fino específico para tarefas. Curiosamente, nosso GiT estabelece um novo benchmark em desempenho generalista e promove o aprimoramento mútuo entre tarefas, levando a melhorias significativas em comparação com o treinamento isolado. Isso reflete um impacto semelhante observado em LLMs. Ao enriquecer ainda mais o treinamento com 27 conjuntos de dados, GiT alcança resultados zero-shot robustos em várias tarefas. Devido ao seu design simples, esse paradigma promete reduzir a lacuna arquitetônica entre visão e linguagem. Códigos e modelos estarão disponíveis em https://github.com/Haiyang-W/GiT.
English
This paper proposes a simple, yet effective framework, called GiT, simultaneously applicable for various vision tasks only with a vanilla ViT. Motivated by the universality of the Multi-layer Transformer architecture (e.g, GPT) widely used in large language models (LLMs), we seek to broaden its scope to serve as a powerful vision foundation model (VFM). However, unlike language modeling, visual tasks typically require specific modules, such as bounding box heads for detection and pixel decoders for segmentation, greatly hindering the application of powerful multi-layer transformers in the vision domain. To solve this, we design a universal language interface that empowers the successful auto-regressive decoding to adeptly unify various visual tasks, from image-level understanding (e.g., captioning), over sparse perception (e.g., detection), to dense prediction (e.g., segmentation). Based on the above designs, the entire model is composed solely of a ViT, without any specific additions, offering a remarkable architectural simplification. GiT is a multi-task visual model, jointly trained across five representative benchmarks without task-specific fine-tuning. Interestingly, our GiT builds a new benchmark in generalist performance, and fosters mutual enhancement across tasks, leading to significant improvements compared to isolated training. This reflects a similar impact observed in LLMs. Further enriching training with 27 datasets, GiT achieves strong zero-shot results over various tasks. Due to its simple design, this paradigm holds promise for narrowing the architectural gap between vision and language. Code and models will be available at https://github.com/Haiyang-W/GiT.
PDF2611February 8, 2026