Prismatische VLMs: Untersuchung des Designraums visuell konditionierter Sprachmodelle
Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models
February 12, 2024
Autoren: Siddharth Karamcheti, Suraj Nair, Ashwin Balakrishna, Percy Liang, Thomas Kollar, Dorsa Sadigh
cs.AI
Zusammenfassung
Visuell konditionierte Sprachmodelle (VLMs) erfreuen sich zunehmender Verbreitung in Anwendungen wie visuellem Dialog, Szenenverständnis und robotischer Aufgabenplanung; eine Verbreitung, die eine Fülle neuer Modelle wie LLaVa, InstructBLIP und PaLI-3 hervorgebracht hat. Trotz der Vielzahl neuer Veröffentlichungen sind zentrale Designentscheidungen in Bezug auf Bildvorverarbeitung, Architektur und Optimierung untererforscht, was es schwierig macht, die Faktoren zu verstehen, die die Modellleistung beeinflussen – eine Herausforderung, die durch das Fehlen objektiver, konsistenter Bewertungen weiter erschwert wird. Um diese Lücken zu schließen, stellen wir zunächst eine Reihe standardisierter Bewertungen zusammen, die visuelle Fragebeantwortung, Objektlokalisierung aus Sprache und gezielte Herausforderungssets umfassen, die Eigenschaften wie Halluzinationen untersuchen; Bewertungen, die kalibrierte, detaillierte Einblicke in die Fähigkeiten eines VLMs bieten. Zweitens untersuchen wir VLMs entlang zentraler Designachsen, einschließlich vortrainierter visueller Repräsentationen und der Quantifizierung der Kompromisse bei der Verwendung von Basis- gegenüber instruktionsfeinabgestimmten Sprachmodellen, unter anderem. Wir ergänzen unsere Analyse mit drei Ressourcenbeiträgen: (1) ein einheitliches Framework zur Bewertung von VLMs, (2) optimierter, flexibler Code für das Training von VLMs und (3) Checkpoints für alle Modelle, einschließlich einer Familie von VLMs im Maßstab von 7-13B, die InstructBLIP und LLaVa v1.5, den State-of-the-Art in Open-Source-VLMs, klar übertreffen.
English
Visually-conditioned language models (VLMs) have seen growing adoption in
applications such as visual dialogue, scene understanding, and robotic task
planning; adoption that has fueled a wealth of new models such as LLaVa,
InstructBLIP, and PaLI-3. Despite the volume of new releases, key design
decisions around image preprocessing, architecture, and optimization are
under-explored, making it challenging to understand what factors account for
model performance - a challenge further complicated by the lack of objective,
consistent evaluations. To address these gaps, we first compile a suite of
standardized evaluations spanning visual question answering, object
localization from language, and targeted challenge sets that probe properties
such as hallucination; evaluations that provide calibrated, fine-grained
insight into a VLM's capabilities. Second, we rigorously investigate VLMs along
key design axes, including pretrained visual representations and quantifying
the tradeoffs of using base vs. instruct-tuned language models, amongst others.
We couple our analysis with three resource contributions: (1) a unified
framework for evaluating VLMs, (2) optimized, flexible code for VLM training,
and (3) checkpoints for all models, including a family of VLMs at the 7-13B
scale that strictly outperform InstructBLIP and LLaVa v1.5, the
state-of-the-art in open-source VLMs.