Руководящий выбор модели видео-языкового восприятия для визуального вопросно-ответного моделирования По всем задачам, областям и типам знаний
Guiding Vision-Language Model Selection for Visual Question-Answering Across Tasks, Domains, and Knowledge Types
September 14, 2024
Авторы: Neelabh Sinha, Vinija Jain, Aman Chadha
cs.AI
Аннотация
Визуальный вопросно-ответный (VQA) подход стал ключевым в нескольких приложениях для улучшения пользовательского опыта, особенно после того, как модели вид-язык (VLMs) показали хорошие результаты в нулевом выводе. Однако оценка различных VLMs для требований приложения с использованием стандартизированной структуры в практических условиях остается сложной задачей. В данной статье представлено комплексное средство оценки VLMs, нацеленное на задачи VQA в практических условиях. Мы представляем новый набор данных, полученный из установленных бенчмарков VQA, аннотированный с типами задач, областями применения и типами знаний, тремя ключевыми практическими аспектами, по которым задачи могут различаться. Мы также представляем GoEval, мультимодальную метрику оценки, разработанную с использованием GPT-4o, достигающую коэффициента корреляции 56.71% с человеческими оценками. Наши эксперименты с десятью современными моделями VLM показывают, что ни одна модель не превосходит всеобщим образом, что делает правильный выбор ключевым проектным решением. Собственные модели, такие как Gemini-1.5-Pro и GPT-4o-mini, в целом превосходят другие, хотя открытые модели, такие как InternVL-2-8B и CogVLM-2-Llama-3-19B, демонстрируют конкурентные преимущества в конкретных контекстах, предоставляя дополнительные преимущества. Это исследование направлено на выбор VLMs на основе конкретных требований задачи и ограничений ресурсов, а также может быть расширено на другие задачи вид-язык.
English
Visual Question-Answering (VQA) has become a key use-case in several
applications to aid user experience, particularly after Vision-Language Models
(VLMs) achieving good results in zero-shot inference. But evaluating different
VLMs for an application requirement using a standardized framework in practical
settings is still challenging. This paper introduces a comprehensive framework
for evaluating VLMs tailored to VQA tasks in practical settings. We present a
novel dataset derived from established VQA benchmarks, annotated with task
types, application domains, and knowledge types, three key practical aspects on
which tasks can vary. We also introduce GoEval, a multimodal evaluation metric
developed using GPT-4o, achieving a correlation factor of 56.71% with human
judgments. Our experiments with ten state-of-the-art VLMs reveals that no
single model excelling universally, making appropriate selection a key design
decision. Proprietary models such as Gemini-1.5-Pro and GPT-4o-mini generally
outperform others, though open-source models like InternVL-2-8B and
CogVLM-2-Llama-3-19B demonstrate competitive strengths in specific contexts,
while providing additional advantages. This study guides the selection of VLMs
based on specific task requirements and resource constraints, and can also be
extended to other vision-language tasks.Summary
AI-Generated Summary