ChatPaper.aiChatPaper

GiT: Hacia un Transformador de Visión Generalista mediante una Interfaz de Lenguaje Universal

GiT: Towards Generalist Vision Transformer through Universal Language Interface

March 14, 2024
Autores: Haiyang Wang, Hao Tang, Li Jiang, Shaoshuai Shi, Muhammad Ferjad Naeem, Hongsheng Li, Bernt Schiele, Liwei Wang
cs.AI

Resumen

Este artículo propone un marco simple pero efectivo, llamado GiT, simultáneamente aplicable a diversas tareas de visión utilizando únicamente un ViT estándar. Motivados por la universalidad de la arquitectura Transformer multicapa (por ejemplo, GPT) ampliamente utilizada en modelos de lenguaje grandes (LLMs), buscamos ampliar su alcance para servir como un poderoso modelo base de visión (VFM). Sin embargo, a diferencia del modelado de lenguaje, las tareas visuales suelen requerir módulos específicos, como cabezales de cajas delimitadoras para detección y decodificadores de píxeles para segmentación, lo que dificulta enormemente la aplicación de transformadores multicapa en el dominio de la visión. Para resolver esto, diseñamos una interfaz de lenguaje universal que permite una decodificación autorregresiva exitosa para unificar hábilmente diversas tareas visuales, desde la comprensión a nivel de imagen (por ejemplo, generación de subtítulos), pasando por la percepción dispersa (por ejemplo, detección), hasta la predicción densa (por ejemplo, segmentación). Basado en estos diseños, el modelo completo está compuesto únicamente por un ViT, sin adiciones específicas, ofreciendo una simplificación arquitectónica notable. GiT es un modelo visual multitarea, entrenado conjuntamente en cinco benchmarks representativos sin ajustes específicos por tarea. Curiosamente, nuestro GiT establece un nuevo estándar en el rendimiento generalista y fomenta una mejora mutua entre tareas, lo que lleva a mejoras significativas en comparación con el entrenamiento aislado. Esto refleja un impacto similar observado en los LLMs. Al enriquecer aún más el entrenamiento con 27 conjuntos de datos, GiT logra resultados sólidos en cero-shot en diversas tareas. Debido a su diseño simple, este paradigma promete reducir la brecha arquitectónica entre visión y lenguaje. El código y los modelos estarán disponibles en https://github.com/Haiyang-W/GiT.
English
This paper proposes a simple, yet effective framework, called GiT, simultaneously applicable for various vision tasks only with a vanilla ViT. Motivated by the universality of the Multi-layer Transformer architecture (e.g, GPT) widely used in large language models (LLMs), we seek to broaden its scope to serve as a powerful vision foundation model (VFM). However, unlike language modeling, visual tasks typically require specific modules, such as bounding box heads for detection and pixel decoders for segmentation, greatly hindering the application of powerful multi-layer transformers in the vision domain. To solve this, we design a universal language interface that empowers the successful auto-regressive decoding to adeptly unify various visual tasks, from image-level understanding (e.g., captioning), over sparse perception (e.g., detection), to dense prediction (e.g., segmentation). Based on the above designs, the entire model is composed solely of a ViT, without any specific additions, offering a remarkable architectural simplification. GiT is a multi-task visual model, jointly trained across five representative benchmarks without task-specific fine-tuning. Interestingly, our GiT builds a new benchmark in generalist performance, and fosters mutual enhancement across tasks, leading to significant improvements compared to isolated training. This reflects a similar impact observed in LLMs. Further enriching training with 27 datasets, GiT achieves strong zero-shot results over various tasks. Due to its simple design, this paradigm holds promise for narrowing the architectural gap between vision and language. Code and models will be available at https://github.com/Haiyang-W/GiT.

Summary

AI-Generated Summary

PDF2811December 15, 2024