ビジョン言語モデルの選択を導く 視覚的質問応答において タスク、ドメイン、知識タイプを横断して
Guiding Vision-Language Model Selection for Visual Question-Answering Across Tasks, Domains, and Knowledge Types
September 14, 2024
著者: Neelabh Sinha, Vinija Jain, Aman Chadha
cs.AI
要旨
ビジュアル質問応答(VQA)は、ユーザーエクスペリエンスを支援するためのいくつかのアプリケーションで主要なユースケースとなり、特にビジョン言語モデル(VLMs)がゼロショット推論で良い結果を達成した後にその重要性が高まっています。しかし、実践的な環境でアプリケーション要件に応じて異なるVLMsを評価することは依然として困難です。本論文では、実践的な環境でVQAタスクに特化したVLMsの評価フレームワークを紹介します。確立されたVQAベンチマークから派生した新しいデータセットを、タスクタイプ、アプリケーションドメイン、知識タイプのアノテーションとともに提示します。これらは、タスクが異なる可能性のある3つの主要な実践的側面です。また、GPT-4oを使用して開発された多モーダル評価尺度であるGoEvalを紹介し、人間の判断との相関係数が56.71%に達成されました。最新の10つのVLMsに関する実験では、普遍的に優れた単一のモデルはなく、適切な選択が重要な設計上の決定であることが示されました。Gemini-1.5-ProやGPT-4o-miniなどの独自のモデルは一般的に他を凌駕していますが、InternVL-2-8BやCogVLM-2-Llama-3-19Bなどのオープンソースモデルは特定の文脈で競争力のある強みを示し、追加の利点を提供しています。この研究は、特定のタスク要件やリソース制約に基づいてVLMsを選択するためのガイドとなり、他のビジョン言語タスクにも拡張可能です。
English
Visual Question-Answering (VQA) has become a key use-case in several
applications to aid user experience, particularly after Vision-Language Models
(VLMs) achieving good results in zero-shot inference. But evaluating different
VLMs for an application requirement using a standardized framework in practical
settings is still challenging. This paper introduces a comprehensive framework
for evaluating VLMs tailored to VQA tasks in practical settings. We present a
novel dataset derived from established VQA benchmarks, annotated with task
types, application domains, and knowledge types, three key practical aspects on
which tasks can vary. We also introduce GoEval, a multimodal evaluation metric
developed using GPT-4o, achieving a correlation factor of 56.71% with human
judgments. Our experiments with ten state-of-the-art VLMs reveals that no
single model excelling universally, making appropriate selection a key design
decision. Proprietary models such as Gemini-1.5-Pro and GPT-4o-mini generally
outperform others, though open-source models like InternVL-2-8B and
CogVLM-2-Llama-3-19B demonstrate competitive strengths in specific contexts,
while providing additional advantages. This study guides the selection of VLMs
based on specific task requirements and resource constraints, and can also be
extended to other vision-language tasks.Summary
AI-Generated Summary