Prismatic VLMs: Esplorazione dello Spazio Progettuale dei Modelli Linguistici Condizionati Visivamente

Abstract

I modelli linguistici condizionati visivamente (VLMs) stanno vedendo una crescente adozione in applicazioni come il dialogo visivo, la comprensione delle scene e la pianificazione di compiti robotici; un'adozione che ha alimentato una ricchezza di nuovi modelli come LLaVa, InstructBLIP e PaLI-3. Nonostante il volume di nuove versioni, le decisioni chiave di progettazione relative alla pre-elaborazione delle immagini, all'architettura e all'ottimizzazione sono poco esplorate, rendendo difficile comprendere quali fattori influenzino le prestazioni del modello - una sfida ulteriormente complicata dalla mancanza di valutazioni oggettive e consistenti. Per colmare queste lacune, abbiamo prima compilato una suite di valutazioni standardizzate che coprono il risposte a domande visive, la localizzazione di oggetti dal linguaggio e set di sfide mirati che esplorano proprietà come l'allucinazione; valutazioni che forniscono una visione calibrata e dettagliata delle capacità di un VLM. In secondo luogo, abbiamo investigato rigorosamente i VLMs lungo assi di progettazione chiave, includendo rappresentazioni visive pre-addestrate e quantificando i compromessi nell'uso di modelli linguistici di base rispetto a quelli ottimizzati per istruzioni, tra gli altri. Abbiamo accompagnato la nostra analisi con tre contributi di risorse: (1) un framework unificato per la valutazione dei VLMs, (2) codice ottimizzato e flessibile per l'addestramento dei VLMs, e (3) checkpoint per tutti i modelli, inclusa una famiglia di VLMs su scala 7-13B che superano rigorosamente InstructBLIP e LLaVa v1.5, lo stato dell'arte nei VLMs open-source.

English

Visually-conditioned language models (VLMs) have seen growing adoption in applications such as visual dialogue, scene understanding, and robotic task planning; adoption that has fueled a wealth of new models such as LLaVa, InstructBLIP, and PaLI-3. Despite the volume of new releases, key design decisions around image preprocessing, architecture, and optimization are under-explored, making it challenging to understand what factors account for model performance - a challenge further complicated by the lack of objective, consistent evaluations. To address these gaps, we first compile a suite of standardized evaluations spanning visual question answering, object localization from language, and targeted challenge sets that probe properties such as hallucination; evaluations that provide calibrated, fine-grained insight into a VLM's capabilities. Second, we rigorously investigate VLMs along key design axes, including pretrained visual representations and quantifying the tradeoffs of using base vs. instruct-tuned language models, amongst others. We couple our analysis with three resource contributions: (1) a unified framework for evaluating VLMs, (2) optimized, flexible code for VLM training, and (3) checkpoints for all models, including a family of VLMs at the 7-13B scale that strictly outperform InstructBLIP and LLaVa v1.5, the state-of-the-art in open-source VLMs.

Prismatic VLMs: Esplorazione dello Spazio Progettuale dei Modelli Linguistici Condizionati Visivamente

Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models

Abstract

Support