GiT: К универсальному видовому трансформеру через универсальный языковой интерфейс
GiT: Towards Generalist Vision Transformer through Universal Language Interface
March 14, 2024
Авторы: Haiyang Wang, Hao Tang, Li Jiang, Shaoshuai Shi, Muhammad Ferjad Naeem, Hongsheng Li, Bernt Schiele, Liwei Wang
cs.AI
Аннотация
Данный документ предлагает простую, но эффективную структуру, названную GiT, одновременно применимую для различных задач компьютерного зрения только с использованием стандартной модели ViT. Вдохновленные универсальностью архитектуры многослойного трансформера (например, GPT), широко используемой в крупных моделях языка (LLM), мы стремимся расширить ее область применения, чтобы служить мощной моделью основы зрения (VFM). Однако, в отличие от моделирования языка, визуальные задачи обычно требуют специфических модулей, таких как головы областей привязки для обнаружения и декодеры пикселей для сегментации, что значительно затрудняет применение мощных многослойных трансформеров в области зрения. Для решения этой проблемы мы разрабатываем универсальный языковой интерфейс, который обеспечивает успешное авторегрессивное декодирование для умелого объединения различных визуальных задач, от понимания на уровне изображения (например, подписывание), через разреженное восприятие (например, обнаружение) до плотного прогнозирования (например, сегментация). На основе вышеперечисленных концепций вся модель состоит исключительно из ViT, без каких-либо специфических дополнений, предлагая замечательное упрощение архитектуры. GiT - это многофункциональная визуальная модель, совместно обученная на пяти репрезентативных бенчмарках без специфической донастройки для каждой задачи. Интересно, что наша модель GiT устанавливает новый стандарт в общей производительности и способствует взаимному улучшению между задачами, что приводит к значительным улучшениям по сравнению с изолированным обучением. Это отражает сходный эффект, наблюдаемый в LLM. Дополнительно обогащая обучение 27 наборами данных, GiT достигает высоких результатов нулевого обучения по различным задачам. Благодаря своему простому дизайну, этот подход обещает сократить архитектурный разрыв между зрением и языком. Код и модели будут доступны по адресу https://github.com/Haiyang-W/GiT.
English
This paper proposes a simple, yet effective framework, called GiT,
simultaneously applicable for various vision tasks only with a vanilla ViT.
Motivated by the universality of the Multi-layer Transformer architecture (e.g,
GPT) widely used in large language models (LLMs), we seek to broaden its scope
to serve as a powerful vision foundation model (VFM). However, unlike language
modeling, visual tasks typically require specific modules, such as bounding box
heads for detection and pixel decoders for segmentation, greatly hindering the
application of powerful multi-layer transformers in the vision domain. To solve
this, we design a universal language interface that empowers the successful
auto-regressive decoding to adeptly unify various visual tasks, from
image-level understanding (e.g., captioning), over sparse perception (e.g.,
detection), to dense prediction (e.g., segmentation). Based on the above
designs, the entire model is composed solely of a ViT, without any specific
additions, offering a remarkable architectural simplification. GiT is a
multi-task visual model, jointly trained across five representative benchmarks
without task-specific fine-tuning. Interestingly, our GiT builds a new
benchmark in generalist performance, and fosters mutual enhancement across
tasks, leading to significant improvements compared to isolated training. This
reflects a similar impact observed in LLMs. Further enriching training with 27
datasets, GiT achieves strong zero-shot results over various tasks. Due to its
simple design, this paradigm holds promise for narrowing the architectural gap
between vision and language. Code and models will be available at
https://github.com/Haiyang-W/GiT.Summary
AI-Generated Summary