Prismatic VLMs : Exploration de l'espace de conception des modèles de langage conditionnés visuellement
Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models
February 12, 2024
Auteurs: Siddharth Karamcheti, Suraj Nair, Ashwin Balakrishna, Percy Liang, Thomas Kollar, Dorsa Sadigh
cs.AI
Résumé
Les modèles de langage conditionnés visuellement (VLMs) connaissent une adoption croissante dans des applications telles que le dialogue visuel, la compréhension de scènes et la planification de tâches robotiques ; une adoption qui a alimenté une multitude de nouveaux modèles tels que LLaVa, InstructBLIP et PaLI-3. Malgré le volume des nouvelles versions, les décisions clés de conception concernant le prétraitement des images, l'architecture et l'optimisation restent peu explorées, rendant difficile la compréhension des facteurs qui influencent la performance des modèles - un défi encore compliqué par l'absence d'évaluations objectives et cohérentes. Pour combler ces lacunes, nous compilons d'abord une suite d'évaluations standardisées couvrant la réponse à des questions visuelles, la localisation d'objets à partir du langage, et des ensembles de défis ciblés qui sondent des propriétés telles que l'hallucination ; des évaluations qui fournissent un aperçu calibré et granulaire des capacités d'un VLM. Ensuite, nous investiguons rigoureusement les VLMs selon des axes de conception clés, incluant les représentations visuelles pré-entraînées et la quantification des compromis entre l'utilisation de modèles de langage de base et ceux ajustés par instruction, entre autres. Nous accompagnons notre analyse de trois contributions ressources : (1) un cadre unifié pour l'évaluation des VLMs, (2) un code optimisé et flexible pour l'entraînement des VLMs, et (3) des points de contrôle pour tous les modèles, incluant une famille de VLMs à l'échelle 7-13B qui surpassent strictement InstructBLIP et LLaVa v1.5, l'état de l'art dans les VLMs open-source.
English
Visually-conditioned language models (VLMs) have seen growing adoption in
applications such as visual dialogue, scene understanding, and robotic task
planning; adoption that has fueled a wealth of new models such as LLaVa,
InstructBLIP, and PaLI-3. Despite the volume of new releases, key design
decisions around image preprocessing, architecture, and optimization are
under-explored, making it challenging to understand what factors account for
model performance - a challenge further complicated by the lack of objective,
consistent evaluations. To address these gaps, we first compile a suite of
standardized evaluations spanning visual question answering, object
localization from language, and targeted challenge sets that probe properties
such as hallucination; evaluations that provide calibrated, fine-grained
insight into a VLM's capabilities. Second, we rigorously investigate VLMs along
key design axes, including pretrained visual representations and quantifying
the tradeoffs of using base vs. instruct-tuned language models, amongst others.
We couple our analysis with three resource contributions: (1) a unified
framework for evaluating VLMs, (2) optimized, flexible code for VLM training,
and (3) checkpoints for all models, including a family of VLMs at the 7-13B
scale that strictly outperform InstructBLIP and LLaVa v1.5, the
state-of-the-art in open-source VLMs.