Orientando la Selección del Modelo de Visión-Lenguaje para la Respuesta a Preguntas Visuales a Través de Tareas, Dominios y Tipos de Conocimiento
Guiding Vision-Language Model Selection for Visual Question-Answering Across Tasks, Domains, and Knowledge Types
September 14, 2024
Autores: Neelabh Sinha, Vinija Jain, Aman Chadha
cs.AI
Resumen
La Pregunta-Respuesta Visual (VQA) se ha convertido en un caso de uso clave en varias aplicaciones para mejorar la experiencia del usuario, especialmente después de que los Modelos Visión-Lenguaje (VLMs) lograran buenos resultados en inferencia sin datos. Sin embargo, evaluar diferentes VLMs para un requisito de aplicación utilizando un marco estandarizado en entornos prácticos sigue siendo un desafío. Este artículo introduce un marco integral para evaluar VLMs adaptado a tareas de VQA en entornos prácticos. Presentamos un conjunto de datos novedoso derivado de benchmarks de VQA establecidos, anotado con tipos de tarea, dominios de aplicación y tipos de conocimiento, tres aspectos prácticos clave en los que las tareas pueden variar. También presentamos GoEval, una métrica de evaluación multimodal desarrollada utilizando GPT-4o, logrando un factor de correlación del 56.71% con juicios humanos. Nuestros experimentos con diez VLMs de última generación revelan que ningún modelo individual sobresale universalmente, lo que convierte a la selección apropiada en una decisión de diseño clave. Modelos propietarios como Gemini-1.5-Pro y GPT-4o-mini generalmente superan a otros, aunque modelos de código abierto como InternVL-2-8B y CogVLM-2-Llama-3-19B demuestran fortalezas competitivas en contextos específicos, al tiempo que ofrecen ventajas adicionales. Este estudio guía la selección de VLMs basada en requisitos de tarea específicos y limitaciones de recursos, y también puede extenderse a otras tareas de visión-lenguaje.
English
Visual Question-Answering (VQA) has become a key use-case in several
applications to aid user experience, particularly after Vision-Language Models
(VLMs) achieving good results in zero-shot inference. But evaluating different
VLMs for an application requirement using a standardized framework in practical
settings is still challenging. This paper introduces a comprehensive framework
for evaluating VLMs tailored to VQA tasks in practical settings. We present a
novel dataset derived from established VQA benchmarks, annotated with task
types, application domains, and knowledge types, three key practical aspects on
which tasks can vary. We also introduce GoEval, a multimodal evaluation metric
developed using GPT-4o, achieving a correlation factor of 56.71% with human
judgments. Our experiments with ten state-of-the-art VLMs reveals that no
single model excelling universally, making appropriate selection a key design
decision. Proprietary models such as Gemini-1.5-Pro and GPT-4o-mini generally
outperform others, though open-source models like InternVL-2-8B and
CogVLM-2-Llama-3-19B demonstrate competitive strengths in specific contexts,
while providing additional advantages. This study guides the selection of VLMs
based on specific task requirements and resource constraints, and can also be
extended to other vision-language tasks.Summary
AI-Generated Summary