ChatPaper.aiChatPaper

Призматические VLM: исследование пространства проектирования визуально-обусловленных языковых моделей

Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models

February 12, 2024
Авторы: Siddharth Karamcheti, Suraj Nair, Ashwin Balakrishna, Percy Liang, Thomas Kollar, Dorsa Sadigh
cs.AI

Аннотация

Визуально-обусловленные языковые модели (VLMs) находят всё более широкое применение в таких задачах, как визуальный диалог, понимание сцен и планирование задач в робототехнике; это распространение стимулировало появление множества новых моделей, таких как LLaVa, InstructBLIP и PaLI-3. Несмотря на обилие новых релизов, ключевые решения, связанные с предобработкой изображений, архитектурой и оптимизацией, остаются недостаточно изученными, что затрудняет понимание факторов, влияющих на производительность моделей. Эта проблема усугубляется отсутствием объективных и согласованных методов оценки. Чтобы устранить эти пробелы, мы, во-первых, разработали набор стандартизированных тестов, охватывающих визуальное ответы на вопросы, локализацию объектов на основе текста и специализированные наборы данных, которые исследуют такие свойства, как галлюцинации; эти тесты предоставляют калиброванное и детализированное понимание возможностей VLM. Во-вторых, мы тщательно исследуем VLMs по ключевым аспектам проектирования, включая предобученные визуальные представления и анализ компромиссов между использованием базовых и инструктивно-настроенных языковых моделей, среди прочего. Наш анализ дополняется тремя ресурсными вкладами: (1) унифицированной системой для оценки VLMs, (2) оптимизированным и гибким кодом для обучения VLMs и (3) контрольными точками для всех моделей, включая семейство VLMs масштаба 7-13B, которые строго превосходят InstructBLIP и LLaVa v1.5, являющиеся передовыми решениями среди открытых VLMs.
English
Visually-conditioned language models (VLMs) have seen growing adoption in applications such as visual dialogue, scene understanding, and robotic task planning; adoption that has fueled a wealth of new models such as LLaVa, InstructBLIP, and PaLI-3. Despite the volume of new releases, key design decisions around image preprocessing, architecture, and optimization are under-explored, making it challenging to understand what factors account for model performance - a challenge further complicated by the lack of objective, consistent evaluations. To address these gaps, we first compile a suite of standardized evaluations spanning visual question answering, object localization from language, and targeted challenge sets that probe properties such as hallucination; evaluations that provide calibrated, fine-grained insight into a VLM's capabilities. Second, we rigorously investigate VLMs along key design axes, including pretrained visual representations and quantifying the tradeoffs of using base vs. instruct-tuned language models, amongst others. We couple our analysis with three resource contributions: (1) a unified framework for evaluating VLMs, (2) optimized, flexible code for VLM training, and (3) checkpoints for all models, including a family of VLMs at the 7-13B scale that strictly outperform InstructBLIP and LLaVa v1.5, the state-of-the-art in open-source VLMs.
PDF152December 15, 2024