Mestre de Muitas Tarefas, Especialista em Várias: Projetando um Modelo de Visão e Linguagem de Propósito Geral com Abordagem de Grosso a Fino
Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model
December 19, 2023
Autores: Shraman Pramanick, Guangxing Han, Rui Hou, Sayan Nag, Ser-Nam Lim, Nicolas Ballas, Qifan Wang, Rama Chellappa, Amjad Almahairi
cs.AI
Resumo
A capacidade dos grandes modelos de linguagem (LLMs) de processar entradas visuais deu origem a sistemas de visão de propósito geral, unificando várias tarefas de visão e linguagem (VL) por meio de ajuste por instrução. No entanto, devido à enorme diversidade nos formatos de entrada e saída no domínio da visão, os modelos de propósito geral existentes não conseguem integrar com sucesso segmentação e entradas de múltiplas imagens com tarefas de nível grosseiro em um único framework. Neste trabalho, introduzimos o VistaLLM, um sistema visual poderoso que aborda tarefas VL de nível grosseiro e refinado em imagens únicas e múltiplas usando um framework unificado. O VistaLLM utiliza um tokenizador de imagens guiado por instruções que filtra embeddings globais usando descrições de tarefas para extrair características comprimidas e refinadas de várias imagens. Além disso, o VistaLLM emprega uma técnica de amostragem adaptativa com consciência de gradiente para representar máscaras de segmentação binária como sequências, melhorando significativamente em relação à amostragem uniforme usada anteriormente. Para reforçar a capacidade desejada do VistaLLM, criamos o CoinIt, um conjunto de dados abrangente de ajuste por instrução de nível grosseiro a refinado com 6,8 milhões de amostras. Também abordamos a falta de conjuntos de dados de ancoragem em múltiplas imagens introduzindo uma nova tarefa, o AttCoSeg (Co-Segmentação em Nível de Atributo), que aumenta a capacidade de raciocínio e ancoragem do modelo em múltiplas imagens de entrada. Experimentos extensos em uma ampla gama de tarefas V e VL demonstram a eficácia do VistaLLM ao alcançar desempenho consistente de última geração em relação a baselines fortes em todas as tarefas subsequentes. Nossa página do projeto pode ser encontrada em https://shramanpramanick.github.io/VistaLLM/.
English
The ability of large language models (LLMs) to process visual inputs has
given rise to general-purpose vision systems, unifying various vision-language
(VL) tasks by instruction tuning. However, due to the enormous diversity in
input-output formats in the vision domain, existing general-purpose models fail
to successfully integrate segmentation and multi-image inputs with coarse-level
tasks into a single framework. In this work, we introduce VistaLLM, a powerful
visual system that addresses coarse- and fine-grained VL tasks over single and
multiple input images using a unified framework. VistaLLM utilizes an
instruction-guided image tokenizer that filters global embeddings using task
descriptions to extract compressed and refined features from numerous images.
Moreover, VistaLLM employs a gradient-aware adaptive sampling technique to
represent binary segmentation masks as sequences, significantly improving over
previously used uniform sampling. To bolster the desired capability of
VistaLLM, we curate CoinIt, a comprehensive coarse-to-fine instruction tuning
dataset with 6.8M samples. We also address the lack of multi-image grounding
datasets by introducing a novel task, AttCoSeg (Attribute-level
Co-Segmentation), which boosts the model's reasoning and grounding capability
over multiple input images. Extensive experiments on a wide range of V- and VL
tasks demonstrate the effectiveness of VistaLLM by achieving consistent
state-of-the-art performance over strong baselines across all downstream tasks.
Our project page can be found at https://shramanpramanick.github.io/VistaLLM/.