VisualSimpleQA: Un punto de referencia para la evaluación desacoplada de modelos grandes de visión y lenguaje en la respuesta a preguntas de búsqueda de hechos
VisualSimpleQA: A Benchmark for Decoupled Evaluation of Large Vision-Language Models in Fact-Seeking Question Answering
March 9, 2025
Autores: Yanling Wang, Yihan Zhao, Xiaodong Chen, Shasha Guo, Lixin Liu, Haoyang Li, Yong Xiao, Jing Zhang, Qi Li, Ke Xu
cs.AI
Resumen
Los modelos grandes de visión y lenguaje (LVLMs, por sus siglas en inglés) han demostrado logros notables, aunque la generación de respuestas no factuales sigue siendo prevalente en tareas de búsqueda de hechos (QA). Los benchmarks multimodales actuales para la búsqueda de hechos se centran principalmente en comparar las salidas de los modelos con respuestas de referencia, ofreciendo información limitada sobre el rendimiento de los módulos específicos de cada modalidad. Para cerrar esta brecha, presentamos VisualSimpleQA, un benchmark multimodal de búsqueda de hechos con dos características clave. En primer lugar, permite una evaluación simplificada y desacoplada de los LVLMs en las modalidades visual y lingüística. En segundo lugar, incorpora criterios de dificultad bien definidos para guiar la anotación humana y facilita la extracción de un subconjunto desafiante, VisualSimpleQA-hard. Los experimentos con 15 LVLMs muestran que incluso modelos de última generación como GPT-4o alcanzan apenas un 60%+ de precisión en tareas multimodales de búsqueda de hechos en VisualSimpleQA y un 30%+ en VisualSimpleQA-hard. Además, la evaluación desacoplada en estos modelos resalta oportunidades significativas de mejora tanto en los módulos visuales como en los lingüísticos. El conjunto de datos está disponible en https://huggingface.co/datasets/WYLing/VisualSimpleQA.
English
Large vision-language models (LVLMs) have demonstrated remarkable
achievements, yet the generation of non-factual responses remains prevalent in
fact-seeking question answering (QA). Current multimodal fact-seeking
benchmarks primarily focus on comparing model outputs to ground truth answers,
providing limited insights into the performance of modality-specific modules.
To bridge this gap, we introduce VisualSimpleQA, a multimodal fact-seeking
benchmark with two key features. First, it enables streamlined and decoupled
evaluation of LVLMs in visual and linguistic modalities. Second, it
incorporates well-defined difficulty criteria to guide human annotation and
facilitates the extraction of a challenging subset, VisualSimpleQA-hard.
Experiments on 15 LVLMs show that even state-of-the-art models such as GPT-4o
achieve merely 60%+ correctness in multimodal fact-seeking QA on VisualSimpleQA
and 30%+ on VisualSimpleQA-hard. Furthermore, the decoupled evaluation across
these models highlights substantial opportunities for improvement in both
visual and linguistic modules. The dataset is available at
https://huggingface.co/datasets/WYLing/VisualSimpleQA.Summary
AI-Generated Summary