Maestro de múltiples tareas, experto en muchas: Diseñando un modelo visión-lenguaje de propósito general con enfoque de grueso a fino
Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model
December 19, 2023
Autores: Shraman Pramanick, Guangxing Han, Rui Hou, Sayan Nag, Ser-Nam Lim, Nicolas Ballas, Qifan Wang, Rama Chellappa, Amjad Almahairi
cs.AI
Resumen
La capacidad de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) para procesar entradas visuales ha dado lugar a sistemas de visión de propósito general, unificando diversas tareas de visión y lenguaje (VL) mediante el ajuste por instrucciones. Sin embargo, debido a la enorme diversidad en los formatos de entrada y salida en el dominio de la visión, los modelos de propósito general existentes no logran integrar con éxito la segmentación y las entradas de múltiples imágenes con tareas de nivel grueso en un único marco. En este trabajo, presentamos VistaLLM, un potente sistema visual que aborda tareas VL tanto de nivel grueso como fino sobre imágenes individuales y múltiples utilizando un marco unificado. VistaLLM utiliza un tokenizador de imágenes guiado por instrucciones que filtra las incrustaciones globales utilizando descripciones de tareas para extraer características comprimidas y refinadas de numerosas imágenes. Además, VistaLLM emplea una técnica de muestreo adaptativo sensible al gradiente para representar máscaras de segmentación binaria como secuencias, mejorando significativamente sobre el muestreo uniforme utilizado anteriormente. Para fortalecer la capacidad deseada de VistaLLM, hemos creado CoinIt, un conjunto de datos integral de ajuste por instrucciones de nivel grueso a fino con 6.8 millones de muestras. También abordamos la falta de conjuntos de datos de anclaje de múltiples imágenes introduciendo una nueva tarea, AttCoSeg (Co-Segmentación a Nivel de Atributos), que mejora la capacidad de razonamiento y anclaje del modelo sobre múltiples imágenes de entrada. Experimentos exhaustivos en una amplia gama de tareas V y VL demuestran la efectividad de VistaLLM al lograr un rendimiento consistente y de vanguardia sobre líneas base sólidas en todas las tareas posteriores. Nuestra página del proyecto se puede encontrar en https://shramanpramanick.github.io/VistaLLM/.
English
The ability of large language models (LLMs) to process visual inputs has
given rise to general-purpose vision systems, unifying various vision-language
(VL) tasks by instruction tuning. However, due to the enormous diversity in
input-output formats in the vision domain, existing general-purpose models fail
to successfully integrate segmentation and multi-image inputs with coarse-level
tasks into a single framework. In this work, we introduce VistaLLM, a powerful
visual system that addresses coarse- and fine-grained VL tasks over single and
multiple input images using a unified framework. VistaLLM utilizes an
instruction-guided image tokenizer that filters global embeddings using task
descriptions to extract compressed and refined features from numerous images.
Moreover, VistaLLM employs a gradient-aware adaptive sampling technique to
represent binary segmentation masks as sequences, significantly improving over
previously used uniform sampling. To bolster the desired capability of
VistaLLM, we curate CoinIt, a comprehensive coarse-to-fine instruction tuning
dataset with 6.8M samples. We also address the lack of multi-image grounding
datasets by introducing a novel task, AttCoSeg (Attribute-level
Co-Segmentation), which boosts the model's reasoning and grounding capability
over multiple input images. Extensive experiments on a wide range of V- and VL
tasks demonstrate the effectiveness of VistaLLM by achieving consistent
state-of-the-art performance over strong baselines across all downstream tasks.
Our project page can be found at https://shramanpramanick.github.io/VistaLLM/.