ChatPaper.aiChatPaper

Orientando a Seleção do Modelo de Visão e Linguagem para Pergunta e Resposta Visual Através de Tarefas, Domínios e Tipos de Conhecimento

Guiding Vision-Language Model Selection for Visual Question-Answering Across Tasks, Domains, and Knowledge Types

September 14, 2024
Autores: Neelabh Sinha, Vinija Jain, Aman Chadha
cs.AI

Resumo

A Question-Answering Visual (VQA) tornou-se um caso de uso fundamental em várias aplicações para auxiliar a experiência do usuário, especialmente após os Modelos de Visão-Linguagem (VLMs) alcançarem bons resultados na inferência de zero-shot. No entanto, avaliar diferentes VLMs para um requisito de aplicação usando um framework padronizado em ambientes práticos ainda é desafiador. Este artigo apresenta um framework abrangente para avaliar VLMs adaptados às tarefas de VQA em ambientes práticos. Apresentamos um conjunto de dados inovador derivado de benchmarks de VQA estabelecidos, anotados com tipos de tarefas, domínios de aplicação e tipos de conhecimento, três aspectos práticos-chave nos quais as tarefas podem variar. Também introduzimos o GoEval, uma métrica de avaliação multimodal desenvolvida usando o GPT-4o, alcançando um fator de correlação de 56,71% com julgamentos humanos. Nossos experimentos com dez VLMs de ponta revelam que nenhum modelo único se destaca universalmente, tornando a seleção apropriada uma decisão de design fundamental. Modelos proprietários como Gemini-1.5-Pro e GPT-4o-mini geralmente superam os demais, embora modelos de código aberto como InternVL-2-8B e CogVLM-2-Llama-3-19B demonstrem forças competitivas em contextos específicos, ao mesmo tempo que oferecem vantagens adicionais. Este estudo orienta a seleção de VLMs com base em requisitos de tarefas específicas e restrições de recursos, e também pode ser estendido a outras tarefas de visão-linguagem.
English
Visual Question-Answering (VQA) has become a key use-case in several applications to aid user experience, particularly after Vision-Language Models (VLMs) achieving good results in zero-shot inference. But evaluating different VLMs for an application requirement using a standardized framework in practical settings is still challenging. This paper introduces a comprehensive framework for evaluating VLMs tailored to VQA tasks in practical settings. We present a novel dataset derived from established VQA benchmarks, annotated with task types, application domains, and knowledge types, three key practical aspects on which tasks can vary. We also introduce GoEval, a multimodal evaluation metric developed using GPT-4o, achieving a correlation factor of 56.71% with human judgments. Our experiments with ten state-of-the-art VLMs reveals that no single model excelling universally, making appropriate selection a key design decision. Proprietary models such as Gemini-1.5-Pro and GPT-4o-mini generally outperform others, though open-source models like InternVL-2-8B and CogVLM-2-Llama-3-19B demonstrate competitive strengths in specific contexts, while providing additional advantages. This study guides the selection of VLMs based on specific task requirements and resource constraints, and can also be extended to other vision-language tasks.

Summary

AI-Generated Summary

PDF92November 16, 2024