Jack of All Tasks, Maestro di Molti: Progettazione di un Modello Visione-Linguaggio Generale a Grana Grossa-Fine
Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model
December 19, 2023
Autori: Shraman Pramanick, Guangxing Han, Rui Hou, Sayan Nag, Ser-Nam Lim, Nicolas Ballas, Qifan Wang, Rama Chellappa, Amjad Almahairi
cs.AI
Abstract
La capacità dei grandi modelli linguistici (LLM) di elaborare input visivi ha dato origine a sistemi visivi generici, unificando vari compiti di visione e linguaggio (VL) attraverso l'instruction tuning. Tuttavia, a causa dell'enorme diversità nei formati di input-output nel dominio visivo, i modelli generici esistenti non riescono a integrare con successo la segmentazione e gli input multi-immagine con compiti di livello grossolano in un unico framework. In questo lavoro, introduciamo VistaLLM, un potente sistema visivo che affronta compiti VL sia di livello grossolano che fine su immagini singole e multiple utilizzando un framework unificato. VistaLLM utilizza un tokenizer di immagini guidato da istruzioni che filtra gli embedding globali utilizzando le descrizioni dei compiti per estrarre caratteristiche compresse e raffinate da numerose immagini. Inoltre, VistaLLM impiega una tecnica di campionamento adattivo basata sul gradiente per rappresentare le maschere di segmentazione binaria come sequenze, migliorando significativamente rispetto al campionamento uniforme precedentemente utilizzato. Per rafforzare le capacità desiderate di VistaLLM, abbiamo curato CoinIt, un dataset completo di instruction tuning da livello grossolano a fine con 6,8 milioni di campioni. Abbiamo anche affrontato la mancanza di dataset di grounding multi-immagine introducendo un nuovo compito, AttCoSeg (Attribute-level Co-Segmentation), che potenzia la capacità di ragionamento e grounding del modello su più immagini di input. Esperimenti estesi su un'ampia gamma di compiti V e VL dimostrano l'efficacia di VistaLLM, raggiungendo prestazioni costantemente all'avanguardia rispetto a baseline solide in tutti i compiti downstream. La nostra pagina del progetto è disponibile all'indirizzo https://shramanpramanick.github.io/VistaLLM/.
English
The ability of large language models (LLMs) to process visual inputs has
given rise to general-purpose vision systems, unifying various vision-language
(VL) tasks by instruction tuning. However, due to the enormous diversity in
input-output formats in the vision domain, existing general-purpose models fail
to successfully integrate segmentation and multi-image inputs with coarse-level
tasks into a single framework. In this work, we introduce VistaLLM, a powerful
visual system that addresses coarse- and fine-grained VL tasks over single and
multiple input images using a unified framework. VistaLLM utilizes an
instruction-guided image tokenizer that filters global embeddings using task
descriptions to extract compressed and refined features from numerous images.
Moreover, VistaLLM employs a gradient-aware adaptive sampling technique to
represent binary segmentation masks as sequences, significantly improving over
previously used uniform sampling. To bolster the desired capability of
VistaLLM, we curate CoinIt, a comprehensive coarse-to-fine instruction tuning
dataset with 6.8M samples. We also address the lack of multi-image grounding
datasets by introducing a novel task, AttCoSeg (Attribute-level
Co-Segmentation), which boosts the model's reasoning and grounding capability
over multiple input images. Extensive experiments on a wide range of V- and VL
tasks demonstrate the effectiveness of VistaLLM by achieving consistent
state-of-the-art performance over strong baselines across all downstream tasks.
Our project page can be found at https://shramanpramanick.github.io/VistaLLM/.