Мастер на все руки, эксперт во многом: разработка универсальной модели "от общего к частному" для обработки визуальной и текстовой информации
Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model
December 19, 2023
Авторы: Shraman Pramanick, Guangxing Han, Rui Hou, Sayan Nag, Ser-Nam Lim, Nicolas Ballas, Qifan Wang, Rama Chellappa, Amjad Almahairi
cs.AI
Аннотация
Способность крупных языковых моделей (LLM) обрабатывать визуальные данные привела к появлению универсальных систем компьютерного зрения, объединяющих различные задачи на стыке зрения и языка (VL) с помощью настройки по инструкциям. Однако из-за огромного разнообразия форматов входных и выходных данных в области зрения существующие универсальные модели не могут успешно интегрировать задачи сегментации и обработки нескольких изображений с задачами более общего уровня в единую структуру. В данной работе мы представляем VistaLLM — мощную визуальную систему, которая решает как общие, так и детализированные задачи VL для одного и нескольких входных изображений с использованием унифицированного подхода. VistaLLM использует токенизатор изображений, управляемый инструкциями, который фильтрует глобальные эмбеддинги с помощью описаний задач для извлечения сжатых и уточнённых признаков из множества изображений. Кроме того, VistaLLM применяет метод адаптивной выборки с учётом градиента для представления бинарных масок сегментации в виде последовательностей, что значительно улучшает результаты по сравнению с ранее используемой равномерной выборкой. Для усиления возможностей VistaLLM мы создали CoinIt — всеобъемлющий набор данных для настройки по инструкциям от общего к детальному, содержащий 6,8 млн образцов. Мы также устраняем недостаток наборов данных для привязки к нескольким изображениям, введя новую задачу AttCoSeg (Атрибутивная Совместная Сегментация), которая улучшает способность модели к рассуждению и привязке на основе нескольких входных изображений. Многочисленные эксперименты на широком спектре задач V и VL демонстрируют эффективность VistaLLM, показывая стабильно наилучшие результаты по сравнению с сильными базовыми моделями во всех последующих задачах. Наш проект доступен по адресу: https://shramanpramanick.github.io/VistaLLM/.
English
The ability of large language models (LLMs) to process visual inputs has
given rise to general-purpose vision systems, unifying various vision-language
(VL) tasks by instruction tuning. However, due to the enormous diversity in
input-output formats in the vision domain, existing general-purpose models fail
to successfully integrate segmentation and multi-image inputs with coarse-level
tasks into a single framework. In this work, we introduce VistaLLM, a powerful
visual system that addresses coarse- and fine-grained VL tasks over single and
multiple input images using a unified framework. VistaLLM utilizes an
instruction-guided image tokenizer that filters global embeddings using task
descriptions to extract compressed and refined features from numerous images.
Moreover, VistaLLM employs a gradient-aware adaptive sampling technique to
represent binary segmentation masks as sequences, significantly improving over
previously used uniform sampling. To bolster the desired capability of
VistaLLM, we curate CoinIt, a comprehensive coarse-to-fine instruction tuning
dataset with 6.8M samples. We also address the lack of multi-image grounding
datasets by introducing a novel task, AttCoSeg (Attribute-level
Co-Segmentation), which boosts the model's reasoning and grounding capability
over multiple input images. Extensive experiments on a wide range of V- and VL
tasks demonstrate the effectiveness of VistaLLM by achieving consistent
state-of-the-art performance over strong baselines across all downstream tasks.
Our project page can be found at https://shramanpramanick.github.io/VistaLLM/.