Richtlinien zur Auswahl von Vision-Language-Modellen für visuelle Frage-Antwort-Systeme Über Aufgaben, Domänen und Wissensarten hinweg
Guiding Vision-Language Model Selection for Visual Question-Answering Across Tasks, Domains, and Knowledge Types
September 14, 2024
Autoren: Neelabh Sinha, Vinija Jain, Aman Chadha
cs.AI
Zusammenfassung
Die visuelle Frage-Antwort (VQA) hat sich zu einem Schlüsselanwendungsfall in mehreren Anwendungen entwickelt, um die Benutzererfahrung zu verbessern, insbesondere nachdem Vision-Sprach-Modelle (VLMs) gute Ergebnisse bei der Nullschuss-Inferenz erzielt haben. Die Evaluierung verschiedener VLMs für eine Anwendungsanforderung mithilfe eines standardisierten Rahmens in praktischen Umgebungen bleibt jedoch herausfordernd. Dieses Papier stellt einen umfassenden Rahmen zur Evaluierung von VLMs vor, der auf VQA-Aufgaben in praktischen Umgebungen zugeschnitten ist. Wir präsentieren einen neuartigen Datensatz, abgeleitet von etablierten VQA-Benchmarks, der mit Aufgabentypen, Anwendungsbereichen und Wissensarten annotiert ist, drei wesentliche praktische Aspekte, in denen sich Aufgaben unterscheiden können. Wir stellen auch GoEval vor, eine multimodale Evaluierungsmetrik, die unter Verwendung von GPT-4o entwickelt wurde und einen Korrelationsfaktor von 56,71% mit menschlichen Urteilen erreicht. Unsere Experimente mit zehn modernsten VLMs zeigen, dass kein einzelnes Modell universell herausragt, was die angemessene Auswahl zu einer entscheidenden Designentscheidung macht. Eigentumsmodelle wie Gemini-1.5-Pro und GPT-4o-mini übertreffen im Allgemeinen andere, obwohl Open-Source-Modelle wie InternVL-2-8B und CogVLM-2-Llama-3-19B in bestimmten Kontexten wettbewerbsfähige Stärken aufweisen und zusätzliche Vorteile bieten. Diese Studie unterstützt die Auswahl von VLMs basierend auf spezifischen Aufgabenanforderungen und Ressourcenbeschränkungen und kann auch auf andere Vision-Sprach-Aufgaben erweitert werden.
English
Visual Question-Answering (VQA) has become a key use-case in several
applications to aid user experience, particularly after Vision-Language Models
(VLMs) achieving good results in zero-shot inference. But evaluating different
VLMs for an application requirement using a standardized framework in practical
settings is still challenging. This paper introduces a comprehensive framework
for evaluating VLMs tailored to VQA tasks in practical settings. We present a
novel dataset derived from established VQA benchmarks, annotated with task
types, application domains, and knowledge types, three key practical aspects on
which tasks can vary. We also introduce GoEval, a multimodal evaluation metric
developed using GPT-4o, achieving a correlation factor of 56.71% with human
judgments. Our experiments with ten state-of-the-art VLMs reveals that no
single model excelling universally, making appropriate selection a key design
decision. Proprietary models such as Gemini-1.5-Pro and GPT-4o-mini generally
outperform others, though open-source models like InternVL-2-8B and
CogVLM-2-Llama-3-19B demonstrate competitive strengths in specific contexts,
while providing additional advantages. This study guides the selection of VLMs
based on specific task requirements and resource constraints, and can also be
extended to other vision-language tasks.Summary
AI-Generated Summary