Les modèles de fondation multimodaux peuvent-ils comprendre les diagrammes schématiques ? Une étude empirique sur les questions-réponses de recherche d'informations dans les articles scientifiques.
Can Multimodal Foundation Models Understand Schematic Diagrams? An Empirical Study on Information-Seeking QA over Scientific Papers
July 14, 2025
papers.authors: Yilun Zhao, Chengye Wang, Chuhan Li, Arman Cohan
cs.AI
papers.abstract
Cet article présente MISS-QA, le premier benchmark spécifiquement conçu pour évaluer la capacité des modèles à interpréter des diagrammes schématiques dans la littérature scientifique. MISS-QA comprend 1 500 exemples annotés par des experts, issus de 465 articles scientifiques. Dans ce benchmark, les modèles sont chargés d'interpréter des diagrammes schématiques illustrant des synthèses de recherche et de répondre à des questions de recherche d'informations basées sur le contexte plus large de l'article. Nous évaluons les performances de 18 modèles fondationnels multimodaux de pointe, notamment o4-mini, Gemini-2.5-Flash et Qwen2.5-VL. Nous révélons un écart de performance significatif entre ces modèles et les experts humains sur MISS-QA. Notre analyse des performances des modèles sur des questions sans réponse et notre analyse détaillée des erreurs mettent en lumière les forces et les limites des modèles actuels, offrant des insights clés pour améliorer la compréhension des modèles dans la littérature scientifique multimodale.
English
This paper introduces MISS-QA, the first benchmark specifically designed to
evaluate the ability of models to interpret schematic diagrams within
scientific literature. MISS-QA comprises 1,500 expert-annotated examples over
465 scientific papers. In this benchmark, models are tasked with interpreting
schematic diagrams that illustrate research overviews and answering
corresponding information-seeking questions based on the broader context of the
paper. We assess the performance of 18 frontier multimodal foundation models,
including o4-mini, Gemini-2.5-Flash, and Qwen2.5-VL. We reveal a significant
performance gap between these models and human experts on MISS-QA. Our analysis
of model performance on unanswerable questions and our detailed error analysis
further highlight the strengths and limitations of current models, offering key
insights to enhance models in comprehending multimodal scientific literature.