Prismatic VLMs: Explorando o Espaço de Design de Modelos de Linguagem Condicionados Visualmente
Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models
February 12, 2024
Autores: Siddharth Karamcheti, Suraj Nair, Ashwin Balakrishna, Percy Liang, Thomas Kollar, Dorsa Sadigh
cs.AI
Resumo
Modelos de linguagem condicionados visualmente (VLMs) têm visto uma adoção crescente em aplicações como diálogo visual, compreensão de cenas e planejamento de tarefas robóticas; uma adoção que tem impulsionado uma variedade de novos modelos, como LLaVa, InstructBLIP e PaLI-3. Apesar do volume de novos lançamentos, decisões-chave de design em torno de pré-processamento de imagens, arquitetura e otimização são pouco exploradas, tornando desafiador entender quais fatores contribuem para o desempenho do modelo — um desafio ainda mais complicado pela falta de avaliações objetivas e consistentes. Para abordar essas lacunas, primeiro compilamos um conjunto de avaliações padronizadas que abrangem respostas a perguntas visuais, localização de objetos a partir de linguagem e conjuntos de desafios específicos que investigam propriedades como alucinação; avaliações que fornecem insights calibrados e detalhados sobre as capacidades de um VLM. Em segundo lugar, investigamos rigorosamente os VLMs ao longo de eixos-chave de design, incluindo representações visuais pré-treinadas e a quantificação das compensações entre o uso de modelos de linguagem base versus ajustados por instrução, entre outros. Acompanhamos nossa análise com três contribuições de recursos: (1) um framework unificado para avaliação de VLMs, (2) código otimizado e flexível para treinamento de VLMs, e (3) checkpoints para todos os modelos, incluindo uma família de VLMs na escala de 7-13B que superam estritamente o InstructBLIP e o LLaVa v1.5, o estado da arte em VLMs de código aberto.
English
Visually-conditioned language models (VLMs) have seen growing adoption in
applications such as visual dialogue, scene understanding, and robotic task
planning; adoption that has fueled a wealth of new models such as LLaVa,
InstructBLIP, and PaLI-3. Despite the volume of new releases, key design
decisions around image preprocessing, architecture, and optimization are
under-explored, making it challenging to understand what factors account for
model performance - a challenge further complicated by the lack of objective,
consistent evaluations. To address these gaps, we first compile a suite of
standardized evaluations spanning visual question answering, object
localization from language, and targeted challenge sets that probe properties
such as hallucination; evaluations that provide calibrated, fine-grained
insight into a VLM's capabilities. Second, we rigorously investigate VLMs along
key design axes, including pretrained visual representations and quantifying
the tradeoffs of using base vs. instruct-tuned language models, amongst others.
We couple our analysis with three resource contributions: (1) a unified
framework for evaluating VLMs, (2) optimized, flexible code for VLM training,
and (3) checkpoints for all models, including a family of VLMs at the 7-13B
scale that strictly outperform InstructBLIP and LLaVa v1.5, the
state-of-the-art in open-source VLMs.