Guidage de la sélection du modèle Vision-Language pour la Question-Réponse Visuelle à travers les tâches, les domaines et les types de connaissances
Guiding Vision-Language Model Selection for Visual Question-Answering Across Tasks, Domains, and Knowledge Types
September 14, 2024
Auteurs: Neelabh Sinha, Vinija Jain, Aman Chadha
cs.AI
Résumé
La Question-Réponse Visuelle (QRV) est devenue un cas d'utilisation clé dans plusieurs applications pour améliorer l'expérience utilisateur, notamment après que les Modèles Vision-Language (MVL) ont obtenu de bons résultats en inférence à zéro-shot. Cependant, évaluer différents MVL pour un besoin d'application en utilisant un cadre standardisé dans des environnements pratiques reste un défi. Cet article présente un cadre complet pour évaluer les MVL adaptés aux tâches de QRV dans des environnements pratiques. Nous présentons un ensemble de données novateur dérivé des référentiels établis de QRV, annoté avec des types de tâches, des domaines d'application et des types de connaissances, trois aspects pratiques clés sur lesquels les tâches peuvent varier. Nous introduisons également GoEval, une métrique d'évaluation multimodale développée en utilisant GPT-4o, atteignant un facteur de corrélation de 56,71% avec les jugements humains. Nos expériences avec dix MVL de pointe révèlent qu'aucun modèle unique n'excelle universellement, ce qui fait de la sélection appropriée une décision de conception clé. Les modèles propriétaires tels que Gemini-1.5-Pro et GPT-4o-mini surpassent généralement les autres, bien que des modèles open-source comme InternVL-2-8B et CogVLM-2-Llama-3-19B démontrent des forces compétitives dans des contextes spécifiques, tout en offrant des avantages supplémentaires. Cette étude guide la sélection des MVL en fonction des besoins spécifiques de la tâche et des contraintes de ressources, et peut également être étendue à d'autres tâches vision-language.
English
Visual Question-Answering (VQA) has become a key use-case in several
applications to aid user experience, particularly after Vision-Language Models
(VLMs) achieving good results in zero-shot inference. But evaluating different
VLMs for an application requirement using a standardized framework in practical
settings is still challenging. This paper introduces a comprehensive framework
for evaluating VLMs tailored to VQA tasks in practical settings. We present a
novel dataset derived from established VQA benchmarks, annotated with task
types, application domains, and knowledge types, three key practical aspects on
which tasks can vary. We also introduce GoEval, a multimodal evaluation metric
developed using GPT-4o, achieving a correlation factor of 56.71% with human
judgments. Our experiments with ten state-of-the-art VLMs reveals that no
single model excelling universally, making appropriate selection a key design
decision. Proprietary models such as Gemini-1.5-Pro and GPT-4o-mini generally
outperform others, though open-source models like InternVL-2-8B and
CogVLM-2-Llama-3-19B demonstrate competitive strengths in specific contexts,
while providing additional advantages. This study guides the selection of VLMs
based on specific task requirements and resource constraints, and can also be
extended to other vision-language tasks.Summary
AI-Generated Summary