ChatPaper.aiChatPaper

Prismatic VLMs: Explorando o Espaço de Design de Modelos de Linguagem Condicionados Visualmente

Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models

February 12, 2024
Autores: Siddharth Karamcheti, Suraj Nair, Ashwin Balakrishna, Percy Liang, Thomas Kollar, Dorsa Sadigh
cs.AI

Resumo

Modelos de linguagem condicionados visualmente (VLMs) têm visto uma adoção crescente em aplicações como diálogo visual, compreensão de cenas e planejamento de tarefas robóticas; uma adoção que tem impulsionado uma variedade de novos modelos, como LLaVa, InstructBLIP e PaLI-3. Apesar do volume de novos lançamentos, decisões-chave de design em torno de pré-processamento de imagens, arquitetura e otimização são pouco exploradas, tornando desafiador entender quais fatores contribuem para o desempenho do modelo — um desafio ainda mais complicado pela falta de avaliações objetivas e consistentes. Para abordar essas lacunas, primeiro compilamos um conjunto de avaliações padronizadas que abrangem respostas a perguntas visuais, localização de objetos a partir de linguagem e conjuntos de desafios específicos que investigam propriedades como alucinação; avaliações que fornecem insights calibrados e detalhados sobre as capacidades de um VLM. Em segundo lugar, investigamos rigorosamente os VLMs ao longo de eixos-chave de design, incluindo representações visuais pré-treinadas e a quantificação das compensações entre o uso de modelos de linguagem base versus ajustados por instrução, entre outros. Acompanhamos nossa análise com três contribuições de recursos: (1) um framework unificado para avaliação de VLMs, (2) código otimizado e flexível para treinamento de VLMs, e (3) checkpoints para todos os modelos, incluindo uma família de VLMs na escala de 7-13B que superam estritamente o InstructBLIP e o LLaVa v1.5, o estado da arte em VLMs de código aberto.
English
Visually-conditioned language models (VLMs) have seen growing adoption in applications such as visual dialogue, scene understanding, and robotic task planning; adoption that has fueled a wealth of new models such as LLaVa, InstructBLIP, and PaLI-3. Despite the volume of new releases, key design decisions around image preprocessing, architecture, and optimization are under-explored, making it challenging to understand what factors account for model performance - a challenge further complicated by the lack of objective, consistent evaluations. To address these gaps, we first compile a suite of standardized evaluations spanning visual question answering, object localization from language, and targeted challenge sets that probe properties such as hallucination; evaluations that provide calibrated, fine-grained insight into a VLM's capabilities. Second, we rigorously investigate VLMs along key design axes, including pretrained visual representations and quantifying the tradeoffs of using base vs. instruct-tuned language models, amongst others. We couple our analysis with three resource contributions: (1) a unified framework for evaluating VLMs, (2) optimized, flexible code for VLM training, and (3) checkpoints for all models, including a family of VLMs at the 7-13B scale that strictly outperform InstructBLIP and LLaVa v1.5, the state-of-the-art in open-source VLMs.
PDF152December 15, 2024