Maître de multiples tâches, expert en plusieurs domaines : Conception d'un modèle vision-langage polyvalent à granularité grossière à fine

Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model

December 19, 2023
papers.authors: Shraman Pramanick, Guangxing Han, Rui Hou, Sayan Nag, Ser-Nam Lim, Nicolas Ballas, Qifan Wang, Rama Chellappa, Amjad Almahairi
cs.AI

papers.abstract

La capacité des grands modèles de langage (LLMs) à traiter des entrées visuelles a donné naissance à des systèmes de vision polyvalents, unifiant diverses tâches vision-langage (VL) par ajustement instructionnel. Cependant, en raison de l'énorme diversité des formats d'entrée-sortie dans le domaine de la vision, les modèles polyvalents existants échouent à intégrer avec succès la segmentation et les entrées multi-images avec des tâches de niveau grossier dans un cadre unique. Dans ce travail, nous présentons VistaLLM, un système visuel puissant qui aborde les tâches VL grossières et fines sur des images uniques et multiples en utilisant un cadre unifié. VistaLLM utilise un tokeniseur d'images guidé par des instructions qui filtre les embeddings globaux en utilisant les descriptions de tâches pour extraire des caractéristiques compressées et raffinées de nombreuses images. De plus, VistaLLM emploie une technique d'échantillonnage adaptatif sensible au gradient pour représenter les masques de segmentation binaire sous forme de séquences, améliorant significativement par rapport à l'échantillonnage uniforme précédemment utilisé. Pour renforcer les capacités souhaitées de VistaLLM, nous avons constitué CoinIt, un ensemble de données complet d'ajustement instructionnel du grossier au fin avec 6,8 millions d'échantillons. Nous abordons également le manque de données d'ancrage multi-images en introduisant une nouvelle tâche, AttCoSeg (Co-Segmentation au niveau des attributs), qui améliore la capacité de raisonnement et d'ancrage du modèle sur plusieurs images d'entrée. Des expériences approfondies sur une large gamme de tâches V et VL démontrent l'efficacité de VistaLLM en atteignant des performances de pointe cohérentes par rapport à des bases de référence solides dans toutes les tâches en aval. Notre page de projet est disponible à l'adresse https://shramanpramanick.github.io/VistaLLM/.
English
The ability of large language models (LLMs) to process visual inputs has given rise to general-purpose vision systems, unifying various vision-language (VL) tasks by instruction tuning. However, due to the enormous diversity in input-output formats in the vision domain, existing general-purpose models fail to successfully integrate segmentation and multi-image inputs with coarse-level tasks into a single framework. In this work, we introduce VistaLLM, a powerful visual system that addresses coarse- and fine-grained VL tasks over single and multiple input images using a unified framework. VistaLLM utilizes an instruction-guided image tokenizer that filters global embeddings using task descriptions to extract compressed and refined features from numerous images. Moreover, VistaLLM employs a gradient-aware adaptive sampling technique to represent binary segmentation masks as sequences, significantly improving over previously used uniform sampling. To bolster the desired capability of VistaLLM, we curate CoinIt, a comprehensive coarse-to-fine instruction tuning dataset with 6.8M samples. We also address the lack of multi-image grounding datasets by introducing a novel task, AttCoSeg (Attribute-level Co-Segmentation), which boosts the model's reasoning and grounding capability over multiple input images. Extensive experiments on a wide range of V- and VL tasks demonstrate the effectiveness of VistaLLM by achieving consistent state-of-the-art performance over strong baselines across all downstream tasks. Our project page can be found at https://shramanpramanick.github.io/VistaLLM/.
PDF131December 15, 2024