Alleskunner, Meester in Velen: Het Ontwerpen van een Algemeen Toepasbaar Grof-naar-Fijn Visie-Taal Model
Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model
December 19, 2023
Auteurs: Shraman Pramanick, Guangxing Han, Rui Hou, Sayan Nag, Ser-Nam Lim, Nicolas Ballas, Qifan Wang, Rama Chellappa, Amjad Almahairi
cs.AI
Samenvatting
Het vermogen van grote taalmmodellen (LLMs) om visuele invoer te verwerken heeft geleid tot algemene visiesystemen, die verschillende visie-taal (VL) taken verenigen door instructieafstemming. Echter, vanwege de enorme diversiteit in invoer-uitvoerformaten in het visiedomein, slagen bestaande algemene modellen er niet in segmentatie en multi-image invoer te integreren met taken op grof niveau in een enkel raamwerk. In dit werk introduceren we VistaLLM, een krachtig visueel systeem dat zowel grove als fijnmazige VL taken over enkele en meerdere invoerafbeeldingen aanpakt met behulp van een verenigd raamwerk. VistaLLM maakt gebruik van een instructiegestuurde beeldtokenizer die globale embeddings filtert met behulp van taakbeschrijvingen om gecomprimeerde en verfijnde kenmerken uit talrijke afbeeldingen te extraheren. Bovendien past VistaLLM een gradiëntbewuste adaptieve bemonsteringstechniek toe om binaire segmentatiemaskers als sequenties weer te geven, wat een aanzienlijke verbetering is ten opzichte van eerder gebruikte uniforme bemonstering. Om de gewenste capaciteit van VistaLLM te versterken, hebben we CoinIt samengesteld, een uitgebreide dataset voor instructieafstemming van grof naar fijn met 6,8 miljoen samples. We pakken ook het gebrek aan multi-image grondingsdatasets aan door een nieuwe taak te introduceren, AttCoSeg (Attribute-level Co-Segmentation), die het redeneer- en grondingsvermogen van het model over meerdere invoerafbeeldingen versterkt. Uitgebreide experimenten op een breed scala aan V- en VL taken tonen de effectiviteit van VistaLLM aan door consistente state-of-the-art prestaties te behalen ten opzichte van sterke basislijnen over alle downstream taken. Onze projectpagina is te vinden op https://shramanpramanick.github.io/VistaLLM/.
English
The ability of large language models (LLMs) to process visual inputs has
given rise to general-purpose vision systems, unifying various vision-language
(VL) tasks by instruction tuning. However, due to the enormous diversity in
input-output formats in the vision domain, existing general-purpose models fail
to successfully integrate segmentation and multi-image inputs with coarse-level
tasks into a single framework. In this work, we introduce VistaLLM, a powerful
visual system that addresses coarse- and fine-grained VL tasks over single and
multiple input images using a unified framework. VistaLLM utilizes an
instruction-guided image tokenizer that filters global embeddings using task
descriptions to extract compressed and refined features from numerous images.
Moreover, VistaLLM employs a gradient-aware adaptive sampling technique to
represent binary segmentation masks as sequences, significantly improving over
previously used uniform sampling. To bolster the desired capability of
VistaLLM, we curate CoinIt, a comprehensive coarse-to-fine instruction tuning
dataset with 6.8M samples. We also address the lack of multi-image grounding
datasets by introducing a novel task, AttCoSeg (Attribute-level
Co-Segmentation), which boosts the model's reasoning and grounding capability
over multiple input images. Extensive experiments on a wide range of V- and VL
tasks demonstrate the effectiveness of VistaLLM by achieving consistent
state-of-the-art performance over strong baselines across all downstream tasks.
Our project page can be found at https://shramanpramanick.github.io/VistaLLM/.