Alleskönner, Meister vieler: Entwurf eines allgemeinen grob-zu-fein Vision-Sprache-Modells
Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model
December 19, 2023
papers.authors: Shraman Pramanick, Guangxing Han, Rui Hou, Sayan Nag, Ser-Nam Lim, Nicolas Ballas, Qifan Wang, Rama Chellappa, Amjad Almahairi
cs.AI
papers.abstract
Die Fähigkeit großer Sprachmodelle (LLMs), visuelle Eingaben zu verarbeiten, hat zu allgemeinen Vision-Systemen geführt, die verschiedene Vision-Sprache (VL)-Aufgaben durch Instruction Tuning vereinheitlichen. Aufgrund der enormen Vielfalt der Eingabe-Ausgabe-Formate im visuellen Bereich scheitern bestehende allgemeine Modelle jedoch daran, Segmentierung und Multi-Bild-Eingaben mit grobkörnigen Aufgaben in einem einzigen Framework zu integrieren. In dieser Arbeit stellen wir VistaLLM vor, ein leistungsstarkes visuelles System, das grob- und feinkörnige VL-Aufgaben für einzelne und mehrere Eingabebilder mit einem einheitlichen Framework bewältigt. VistaLLM nutzt einen anweisungsgesteuerten Bild-Tokenizer, der globale Einbettungen mithilfe von Aufgabenbeschreibungen filtert, um komprimierte und verfeinerte Merkmale aus zahlreichen Bildern zu extrahieren. Darüber hinaus verwendet VistaLLM eine gradientenbewusste adaptive Sampling-Technik, um binäre Segmentierungsmasken als Sequenzen darzustellen, was eine deutliche Verbesserung gegenüber dem bisher verwendeten gleichmäßigen Sampling darstellt. Um die gewünschte Fähigkeit von VistaLLM zu stärken, haben wir CoinIt kuratiert, einen umfassenden Coarse-to-Fine Instruction Tuning-Datensatz mit 6,8 Millionen Proben. Wir beheben auch den Mangel an Multi-Bild-Grounding-Datensätzen, indem wir eine neuartige Aufgabe einführen, AttCoSeg (Attribute-level Co-Segmentation), die die Fähigkeit des Modells zur Argumentation und Verankerung über mehrere Eingabebilder verbessert. Umfangreiche Experimente zu einer Vielzahl von V- und VL-Aufgaben demonstrieren die Wirksamkeit von VistaLLM, indem konsistente State-of-the-Art-Leistungen über starke Baselines in allen nachgelagerten Aufgaben erzielt werden. Unsere Projektseite finden Sie unter https://shramanpramanick.github.io/VistaLLM/.
English
The ability of large language models (LLMs) to process visual inputs has
given rise to general-purpose vision systems, unifying various vision-language
(VL) tasks by instruction tuning. However, due to the enormous diversity in
input-output formats in the vision domain, existing general-purpose models fail
to successfully integrate segmentation and multi-image inputs with coarse-level
tasks into a single framework. In this work, we introduce VistaLLM, a powerful
visual system that addresses coarse- and fine-grained VL tasks over single and
multiple input images using a unified framework. VistaLLM utilizes an
instruction-guided image tokenizer that filters global embeddings using task
descriptions to extract compressed and refined features from numerous images.
Moreover, VistaLLM employs a gradient-aware adaptive sampling technique to
represent binary segmentation masks as sequences, significantly improving over
previously used uniform sampling. To bolster the desired capability of
VistaLLM, we curate CoinIt, a comprehensive coarse-to-fine instruction tuning
dataset with 6.8M samples. We also address the lack of multi-image grounding
datasets by introducing a novel task, AttCoSeg (Attribute-level
Co-Segmentation), which boosts the model's reasoning and grounding capability
over multiple input images. Extensive experiments on a wide range of V- and VL
tasks demonstrate the effectiveness of VistaLLM by achieving consistent
state-of-the-art performance over strong baselines across all downstream tasks.
Our project page can be found at https://shramanpramanick.github.io/VistaLLM/.