Prismatic VLMs: Explorando o Espaço de Design de Modelos de Linguagem Condicionados Visualmente

Resumo

Modelos de linguagem condicionados visualmente (VLMs) têm visto uma adoção crescente em aplicações como diálogo visual, compreensão de cenas e planejamento de tarefas robóticas; uma adoção que tem impulsionado uma variedade de novos modelos, como LLaVa, InstructBLIP e PaLI-3. Apesar do volume de novos lançamentos, decisões-chave de design em torno de pré-processamento de imagens, arquitetura e otimização são pouco exploradas, tornando desafiador entender quais fatores contribuem para o desempenho do modelo — um desafio ainda mais complicado pela falta de avaliações objetivas e consistentes. Para abordar essas lacunas, primeiro compilamos um conjunto de avaliações padronizadas que abrangem respostas a perguntas visuais, localização de objetos a partir de linguagem e conjuntos de desafios específicos que investigam propriedades como alucinação; avaliações que fornecem insights calibrados e detalhados sobre as capacidades de um VLM. Em segundo lugar, investigamos rigorosamente os VLMs ao longo de eixos-chave de design, incluindo representações visuais pré-treinadas e a quantificação das compensações entre o uso de modelos de linguagem base versus ajustados por instrução, entre outros. Acompanhamos nossa análise com três contribuições de recursos: (1) um framework unificado para avaliação de VLMs, (2) código otimizado e flexível para treinamento de VLMs, e (3) checkpoints para todos os modelos, incluindo uma família de VLMs na escala de 7-13B que superam estritamente o InstructBLIP e o LLaVa v1.5, o estado da arte em VLMs de código aberto.

English

Visually-conditioned language models (VLMs) have seen growing adoption in applications such as visual dialogue, scene understanding, and robotic task planning; adoption that has fueled a wealth of new models such as LLaVa, InstructBLIP, and PaLI-3. Despite the volume of new releases, key design decisions around image preprocessing, architecture, and optimization are under-explored, making it challenging to understand what factors account for model performance - a challenge further complicated by the lack of objective, consistent evaluations. To address these gaps, we first compile a suite of standardized evaluations spanning visual question answering, object localization from language, and targeted challenge sets that probe properties such as hallucination; evaluations that provide calibrated, fine-grained insight into a VLM's capabilities. Second, we rigorously investigate VLMs along key design axes, including pretrained visual representations and quantifying the tradeoffs of using base vs. instruct-tuned language models, amongst others. We couple our analysis with three resource contributions: (1) a unified framework for evaluating VLMs, (2) optimized, flexible code for VLM training, and (3) checkpoints for all models, including a family of VLMs at the 7-13B scale that strictly outperform InstructBLIP and LLaVa v1.5, the state-of-the-art in open-source VLMs.

Prismatic VLMs: Explorando o Espaço de Design de Modelos de Linguagem Condicionados Visualmente

Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models

Resumo

Support