Prismatic VLMs: Explorando el Espacio de Diseño de Modelos de Lenguaje Condicionados Visualmente
Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models
February 12, 2024
Autores: Siddharth Karamcheti, Suraj Nair, Ashwin Balakrishna, Percy Liang, Thomas Kollar, Dorsa Sadigh
cs.AI
Resumen
Los modelos de lenguaje condicionados visualmente (VLMs, por sus siglas en inglés) han experimentado una creciente adopción en aplicaciones como diálogo visual, comprensión de escenas y planificación de tareas robóticas; una adopción que ha impulsado una gran cantidad de nuevos modelos como LLaVa, InstructBLIP y PaLI-3. A pesar del volumen de nuevos lanzamientos, las decisiones clave de diseño en torno al preprocesamiento de imágenes, la arquitectura y la optimización están poco exploradas, lo que dificulta entender qué factores contribuyen al rendimiento del modelo, un desafío que se complica aún más por la falta de evaluaciones objetivas y consistentes. Para abordar estas brechas, primero compilamos un conjunto de evaluaciones estandarizadas que abarcan la respuesta a preguntas visuales, la localización de objetos a partir del lenguaje y conjuntos de desafíos específicos que exploran propiedades como la alucinación; evaluaciones que proporcionan una visión calibrada y detallada de las capacidades de un VLM. En segundo lugar, investigamos rigurosamente los VLMs a lo largo de ejes clave de diseño, incluyendo representaciones visuales preentrenadas y la cuantificación de las compensaciones entre el uso de modelos de lenguaje base frente a aquellos ajustados mediante instrucciones, entre otros. Complementamos nuestro análisis con tres contribuciones de recursos: (1) un marco unificado para evaluar VLMs, (2) código optimizado y flexible para el entrenamiento de VLMs, y (3) puntos de control para todos los modelos, incluyendo una familia de VLMs en la escala de 7-13B que superan estrictamente a InstructBLIP y LLaVa v1.5, el estado del arte en VLMs de código abierto.
English
Visually-conditioned language models (VLMs) have seen growing adoption in
applications such as visual dialogue, scene understanding, and robotic task
planning; adoption that has fueled a wealth of new models such as LLaVa,
InstructBLIP, and PaLI-3. Despite the volume of new releases, key design
decisions around image preprocessing, architecture, and optimization are
under-explored, making it challenging to understand what factors account for
model performance - a challenge further complicated by the lack of objective,
consistent evaluations. To address these gaps, we first compile a suite of
standardized evaluations spanning visual question answering, object
localization from language, and targeted challenge sets that probe properties
such as hallucination; evaluations that provide calibrated, fine-grained
insight into a VLM's capabilities. Second, we rigorously investigate VLMs along
key design axes, including pretrained visual representations and quantifying
the tradeoffs of using base vs. instruct-tuned language models, amongst others.
We couple our analysis with three resource contributions: (1) a unified
framework for evaluating VLMs, (2) optimized, flexible code for VLM training,
and (3) checkpoints for all models, including a family of VLMs at the 7-13B
scale that strictly outperform InstructBLIP and LLaVa v1.5, the
state-of-the-art in open-source VLMs.