ChatPaper.aiChatPaper

¿Pueden los modelos fundacionales multimodales comprender diagramas esquemáticos? Un estudio empírico sobre preguntas de búsqueda de información en artículos científicos

Can Multimodal Foundation Models Understand Schematic Diagrams? An Empirical Study on Information-Seeking QA over Scientific Papers

July 14, 2025
Autores: Yilun Zhao, Chengye Wang, Chuhan Li, Arman Cohan
cs.AI

Resumen

Este artículo presenta MISS-QA, el primer punto de referencia diseñado específicamente para evaluar la capacidad de los modelos para interpretar diagramas esquemáticos dentro de la literatura científica. MISS-QA comprende 1,500 ejemplos anotados por expertos provenientes de 465 artículos científicos. En este punto de referencia, los modelos tienen la tarea de interpretar diagramas esquemáticos que ilustran resúmenes de investigación y responder preguntas de búsqueda de información basadas en el contexto más amplio del artículo. Evaluamos el rendimiento de 18 modelos fundamentales multimodales de vanguardia, incluyendo o4-mini, Gemini-2.5-Flash y Qwen2.5-VL. Revelamos una brecha significativa en el rendimiento entre estos modelos y los expertos humanos en MISS-QA. Nuestro análisis del rendimiento de los modelos en preguntas sin respuesta y nuestro análisis detallado de errores resaltan aún más las fortalezas y limitaciones de los modelos actuales, ofreciendo ideas clave para mejorar la comprensión de la literatura científica multimodal.
English
This paper introduces MISS-QA, the first benchmark specifically designed to evaluate the ability of models to interpret schematic diagrams within scientific literature. MISS-QA comprises 1,500 expert-annotated examples over 465 scientific papers. In this benchmark, models are tasked with interpreting schematic diagrams that illustrate research overviews and answering corresponding information-seeking questions based on the broader context of the paper. We assess the performance of 18 frontier multimodal foundation models, including o4-mini, Gemini-2.5-Flash, and Qwen2.5-VL. We reveal a significant performance gap between these models and human experts on MISS-QA. Our analysis of model performance on unanswerable questions and our detailed error analysis further highlight the strengths and limitations of current models, offering key insights to enhance models in comprehending multimodal scientific literature.
PDF101July 16, 2025