ChatPaper.aiChatPaper

Richtlijnen voor het selecteren van een Visie-Taalmodel voor Visuele Vraag-Antwoordtaken over taken, domeinen en kennistypen

Guiding Vision-Language Model Selection for Visual Question-Answering Across Tasks, Domains, and Knowledge Types

September 14, 2024
Auteurs: Neelabh Sinha, Vinija Jain, Aman Chadha
cs.AI

Samenvatting

Visuele Vraag-Antwoord (VQA) is een belangrijke toepassing geworden in verschillende toepassingen om de gebruikerservaring te verbeteren, met name nadat Vision-Language Modellen (VLM's) goede resultaten behaalden in zero-shot inferentie. Het evalueren van verschillende VLM's voor een toepassingsvereiste met behulp van een gestandaardiseerd kader in praktijksituaties blijft echter uitdagend. Dit artikel introduceert een uitgebreid kader voor het evalueren van VLM's die zijn afgestemd op VQA-taken in praktijksituaties. We presenteren een nieuw dataset afgeleid van gevestigde VQA-benchmarks, geannoteerd met taaktypen, toepassingsdomeinen en kennistypen, drie belangrijke praktische aspecten waarop taken kunnen variëren. We introduceren ook GoEval, een multimetrische evaluatiemaatstaf ontwikkeld met behulp van GPT-4o, met een correlatiefactor van 56.71% met menselijke beoordelingen. Onze experimenten met tien toonaangevende VLM's tonen aan dat er geen enkel model universeel uitblinkt, waardoor een passende selectie een cruciale ontwerpbeslissing is. Eigen modellen zoals Gemini-1.5-Pro en GPT-4o-mini presteren over het algemeen beter dan anderen, hoewel open-source modellen zoals InternVL-2-8B en CogVLM-2-Llama-3-19B competitieve krachten tonen in specifieke contexten, terwijl ze extra voordelen bieden. Deze studie begeleidt de selectie van VLM's op basis van specifieke taakeisen en resourcebeperkingen, en kan ook worden uitgebreid naar andere visie-taal taken.
English
Visual Question-Answering (VQA) has become a key use-case in several applications to aid user experience, particularly after Vision-Language Models (VLMs) achieving good results in zero-shot inference. But evaluating different VLMs for an application requirement using a standardized framework in practical settings is still challenging. This paper introduces a comprehensive framework for evaluating VLMs tailored to VQA tasks in practical settings. We present a novel dataset derived from established VQA benchmarks, annotated with task types, application domains, and knowledge types, three key practical aspects on which tasks can vary. We also introduce GoEval, a multimodal evaluation metric developed using GPT-4o, achieving a correlation factor of 56.71% with human judgments. Our experiments with ten state-of-the-art VLMs reveals that no single model excelling universally, making appropriate selection a key design decision. Proprietary models such as Gemini-1.5-Pro and GPT-4o-mini generally outperform others, though open-source models like InternVL-2-8B and CogVLM-2-Llama-3-19B demonstrate competitive strengths in specific contexts, while providing additional advantages. This study guides the selection of VLMs based on specific task requirements and resource constraints, and can also be extended to other vision-language tasks.

Summary

AI-Generated Summary

PDF92November 16, 2024