Guidare la Selezione del Modello Visione-Linguaggio per la Risposta alle Domande Visive Attraverso Compiti, Domini e Tipi di Conoscenza
Guiding Vision-Language Model Selection for Visual Question-Answering Across Tasks, Domains, and Knowledge Types
September 14, 2024
Autori: Neelabh Sinha, Vinija Jain, Aman Chadha
cs.AI
Abstract
Il Question-Answering Visivo (VQA) è diventato un caso d'uso chiave in diverse applicazioni per migliorare l'esperienza dell'utente, specialmente dopo che i Modelli Visione-Linguaggio (VLMs) hanno ottenuto buoni risultati nell'inferenza a zero-shot. Tuttavia, valutare diversi VLMs per un requisito di applicazione utilizzando un framework standardizzato in contesti pratici rimane ancora una sfida. Questo articolo introduce un framework completo per valutare i VLMs adattati ai compiti VQA in contesti pratici. Presentiamo un nuovo dataset derivato da benchmark VQA consolidati, annotati con tipi di compiti, domini di applicazione e tipi di conoscenza, tre aspetti pratici chiave su cui i compiti possono variare. Introduciamo inoltre GoEval, una metrica di valutazione multimodale sviluppata utilizzando GPT-4o, che raggiunge un fattore di correlazione del 56,71% con i giudizi umani. I nostri esperimenti con dieci VLMs all'avanguardia rivelano che nessun singolo modello eccelle universalmente, rendendo la selezione appropriata una decisione progettuale chiave. I modelli proprietari come Gemini-1.5-Pro e GPT-4o-mini generalmente superano gli altri, anche se modelli open-source come InternVL-2-8B e CogVLM-2-Llama-3-19B dimostrano punti di forza competitivi in contesti specifici, fornendo anche vantaggi aggiuntivi. Questo studio guida la selezione dei VLMs basata su requisiti specifici dei compiti e vincoli di risorse, e può essere esteso anche ad altri compiti visione-linguaggio.
English
Visual Question-Answering (VQA) has become a key use-case in several
applications to aid user experience, particularly after Vision-Language Models
(VLMs) achieving good results in zero-shot inference. But evaluating different
VLMs for an application requirement using a standardized framework in practical
settings is still challenging. This paper introduces a comprehensive framework
for evaluating VLMs tailored to VQA tasks in practical settings. We present a
novel dataset derived from established VQA benchmarks, annotated with task
types, application domains, and knowledge types, three key practical aspects on
which tasks can vary. We also introduce GoEval, a multimodal evaluation metric
developed using GPT-4o, achieving a correlation factor of 56.71% with human
judgments. Our experiments with ten state-of-the-art VLMs reveals that no
single model excelling universally, making appropriate selection a key design
decision. Proprietary models such as Gemini-1.5-Pro and GPT-4o-mini generally
outperform others, though open-source models like InternVL-2-8B and
CogVLM-2-Llama-3-19B demonstrate competitive strengths in specific contexts,
while providing additional advantages. This study guides the selection of VLMs
based on specific task requirements and resource constraints, and can also be
extended to other vision-language tasks.Summary
AI-Generated Summary