GiT: Auf dem Weg zum Generalisten Vision Transformer durch eine universelle Sprachschnittstelle

papers.abstract

Dieses Paper schlägt ein einfaches, aber effektives Framework namens GiT vor, das gleichzeitig für verschiedene Visionstasks nur mit einem Vanilla ViT anwendbar ist. Angeregt durch die Universalität der Multi-Layer-Transformer-Architektur (z. B. GPT), die weit verbreitet in großen Sprachmodellen (LLMs) verwendet wird, streben wir danach, ihren Anwendungsbereich zu erweitern, um als leistungsstarkes Modell für visuelle Grundlagen (VFM) zu dienen. Im Gegensatz zum Sprachmodellieren erfordern visuelle Aufgaben typischerweise spezifische Module wie Bounding-Box-Heads für die Detektion und Pixel-Decodierer für die Segmentierung, was die Anwendung leistungsstarker Multi-Layer-Transformer im Vision-Bereich erheblich behindert. Um dies zu lösen, entwerfen wir eine universelle Sprachschnittstelle, die das erfolgreiche autoregressive Decodieren ermöglicht, um verschiedene visuelle Aufgaben geschickt zu vereinen, von der Verständnis auf Bild-Ebene (z. B. Beschriftung) über die spärliche Wahrnehmung (z. B. Detektion) bis zur dichten Vorhersage (z. B. Segmentierung). Basierend auf den oben genannten Entwürfen besteht das gesamte Modell ausschließlich aus einem ViT, ohne spezifische Ergänzungen, was eine bemerkenswerte architektonische Vereinfachung bietet. GiT ist ein Multi-Task-Visual-Modell, das über fünf repräsentative Benchmarks hinweg gemeinsam trainiert wird, ohne aufgabenbezogenes Feintuning. Interessanterweise setzt unser GiT eine neue Benchmark in der Leistung von Generalisten und fördert die gegenseitige Verbesserung über Aufgaben hinweg, was im Vergleich zum isolierten Training signifikante Verbesserungen zeigt. Dies spiegelt einen ähnlichen Einfluss wider, der bei LLMs beobachtet wird. Durch die weitere Bereicherung des Trainings mit 27 Datensätzen erzielt GiT starke Zero-Shot-Ergebnisse über verschiedene Aufgaben. Aufgrund seines einfachen Designs birgt dieses Paradigma das Potenzial, die architektonische Kluft zwischen Vision und Sprache zu verringern. Der Code und die Modelle sind verfügbar unter https://github.com/Haiyang-W/GiT.

English

This paper proposes a simple, yet effective framework, called GiT, simultaneously applicable for various vision tasks only with a vanilla ViT. Motivated by the universality of the Multi-layer Transformer architecture (e.g, GPT) widely used in large language models (LLMs), we seek to broaden its scope to serve as a powerful vision foundation model (VFM). However, unlike language modeling, visual tasks typically require specific modules, such as bounding box heads for detection and pixel decoders for segmentation, greatly hindering the application of powerful multi-layer transformers in the vision domain. To solve this, we design a universal language interface that empowers the successful auto-regressive decoding to adeptly unify various visual tasks, from image-level understanding (e.g., captioning), over sparse perception (e.g., detection), to dense prediction (e.g., segmentation). Based on the above designs, the entire model is composed solely of a ViT, without any specific additions, offering a remarkable architectural simplification. GiT is a multi-task visual model, jointly trained across five representative benchmarks without task-specific fine-tuning. Interestingly, our GiT builds a new benchmark in generalist performance, and fosters mutual enhancement across tasks, leading to significant improvements compared to isolated training. This reflects a similar impact observed in LLMs. Further enriching training with 27 datasets, GiT achieves strong zero-shot results over various tasks. Due to its simple design, this paradigm holds promise for narrowing the architectural gap between vision and language. Code and models will be available at https://github.com/Haiyang-W/GiT.

GiT: Auf dem Weg zum Generalisten Vision Transformer durch eine universelle Sprachschnittstelle

GiT: Towards Generalist Vision Transformer through Universal Language Interface

papers.abstract

Support