Руководящий выбор модели видео-языкового восприятия для визуального вопросно-ответного моделирования По всем задачам, областям и типам знаний

Аннотация

Визуальный вопросно-ответный (VQA) подход стал ключевым в нескольких приложениях для улучшения пользовательского опыта, особенно после того, как модели вид-язык (VLMs) показали хорошие результаты в нулевом выводе. Однако оценка различных VLMs для требований приложения с использованием стандартизированной структуры в практических условиях остается сложной задачей. В данной статье представлено комплексное средство оценки VLMs, нацеленное на задачи VQA в практических условиях. Мы представляем новый набор данных, полученный из установленных бенчмарков VQA, аннотированный с типами задач, областями применения и типами знаний, тремя ключевыми практическими аспектами, по которым задачи могут различаться. Мы также представляем GoEval, мультимодальную метрику оценки, разработанную с использованием GPT-4o, достигающую коэффициента корреляции 56.71% с человеческими оценками. Наши эксперименты с десятью современными моделями VLM показывают, что ни одна модель не превосходит всеобщим образом, что делает правильный выбор ключевым проектным решением. Собственные модели, такие как Gemini-1.5-Pro и GPT-4o-mini, в целом превосходят другие, хотя открытые модели, такие как InternVL-2-8B и CogVLM-2-Llama-3-19B, демонстрируют конкурентные преимущества в конкретных контекстах, предоставляя дополнительные преимущества. Это исследование направлено на выбор VLMs на основе конкретных требований задачи и ограничений ресурсов, а также может быть расширено на другие задачи вид-язык.

English

Visual Question-Answering (VQA) has become a key use-case in several applications to aid user experience, particularly after Vision-Language Models (VLMs) achieving good results in zero-shot inference. But evaluating different VLMs for an application requirement using a standardized framework in practical settings is still challenging. This paper introduces a comprehensive framework for evaluating VLMs tailored to VQA tasks in practical settings. We present a novel dataset derived from established VQA benchmarks, annotated with task types, application domains, and knowledge types, three key practical aspects on which tasks can vary. We also introduce GoEval, a multimodal evaluation metric developed using GPT-4o, achieving a correlation factor of 56.71% with human judgments. Our experiments with ten state-of-the-art VLMs reveals that no single model excelling universally, making appropriate selection a key design decision. Proprietary models such as Gemini-1.5-Pro and GPT-4o-mini generally outperform others, though open-source models like InternVL-2-8B and CogVLM-2-Llama-3-19B demonstrate competitive strengths in specific contexts, while providing additional advantages. This study guides the selection of VLMs based on specific task requirements and resource constraints, and can also be extended to other vision-language tasks.

Руководящий выбор модели видео-языкового восприятия для визуального вопросно-ответного моделирования По всем задачам, областям и типам знаний

Guiding Vision-Language Model Selection for Visual Question-Answering Across Tasks, Domains, and Knowledge Types

Аннотация

Support