ChatPaper.aiChatPaper

Prismatic VLMs: Explorando el Espacio de Diseño de Modelos de Lenguaje Condicionados Visualmente

Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models

February 12, 2024
Autores: Siddharth Karamcheti, Suraj Nair, Ashwin Balakrishna, Percy Liang, Thomas Kollar, Dorsa Sadigh
cs.AI

Resumen

Los modelos de lenguaje condicionados visualmente (VLMs, por sus siglas en inglés) han experimentado una creciente adopción en aplicaciones como diálogo visual, comprensión de escenas y planificación de tareas robóticas; una adopción que ha impulsado una gran cantidad de nuevos modelos como LLaVa, InstructBLIP y PaLI-3. A pesar del volumen de nuevos lanzamientos, las decisiones clave de diseño en torno al preprocesamiento de imágenes, la arquitectura y la optimización están poco exploradas, lo que dificulta entender qué factores contribuyen al rendimiento del modelo, un desafío que se complica aún más por la falta de evaluaciones objetivas y consistentes. Para abordar estas brechas, primero compilamos un conjunto de evaluaciones estandarizadas que abarcan la respuesta a preguntas visuales, la localización de objetos a partir del lenguaje y conjuntos de desafíos específicos que exploran propiedades como la alucinación; evaluaciones que proporcionan una visión calibrada y detallada de las capacidades de un VLM. En segundo lugar, investigamos rigurosamente los VLMs a lo largo de ejes clave de diseño, incluyendo representaciones visuales preentrenadas y la cuantificación de las compensaciones entre el uso de modelos de lenguaje base frente a aquellos ajustados mediante instrucciones, entre otros. Complementamos nuestro análisis con tres contribuciones de recursos: (1) un marco unificado para evaluar VLMs, (2) código optimizado y flexible para el entrenamiento de VLMs, y (3) puntos de control para todos los modelos, incluyendo una familia de VLMs en la escala de 7-13B que superan estrictamente a InstructBLIP y LLaVa v1.5, el estado del arte en VLMs de código abierto.
English
Visually-conditioned language models (VLMs) have seen growing adoption in applications such as visual dialogue, scene understanding, and robotic task planning; adoption that has fueled a wealth of new models such as LLaVa, InstructBLIP, and PaLI-3. Despite the volume of new releases, key design decisions around image preprocessing, architecture, and optimization are under-explored, making it challenging to understand what factors account for model performance - a challenge further complicated by the lack of objective, consistent evaluations. To address these gaps, we first compile a suite of standardized evaluations spanning visual question answering, object localization from language, and targeted challenge sets that probe properties such as hallucination; evaluations that provide calibrated, fine-grained insight into a VLM's capabilities. Second, we rigorously investigate VLMs along key design axes, including pretrained visual representations and quantifying the tradeoffs of using base vs. instruct-tuned language models, amongst others. We couple our analysis with three resource contributions: (1) a unified framework for evaluating VLMs, (2) optimized, flexible code for VLM training, and (3) checkpoints for all models, including a family of VLMs at the 7-13B scale that strictly outperform InstructBLIP and LLaVa v1.5, the state-of-the-art in open-source VLMs.
PDF152December 15, 2024