ChatPaper.aiChatPaper

Können multimodale Foundation-Modelle schematische Diagramme verstehen? Eine empirische Studie zu informationssuchenden Frage-Antwort-Systemen über wissenschaftliche Arbeiten.

Can Multimodal Foundation Models Understand Schematic Diagrams? An Empirical Study on Information-Seeking QA over Scientific Papers

July 14, 2025
papers.authors: Yilun Zhao, Chengye Wang, Chuhan Li, Arman Cohan
cs.AI

papers.abstract

Dieses Paper stellt MISS-QA vor, den ersten Benchmark, der speziell entwickelt wurde, um die Fähigkeit von Modellen zur Interpretation von schematischen Diagrammen in wissenschaftlicher Literatur zu bewerten. MISS-QA umfasst 1.500 von Experten annotierte Beispiele aus 465 wissenschaftlichen Arbeiten. In diesem Benchmark wird von Modellen erwartet, dass sie schematische Diagramme, die Forschungsüberblicke darstellen, interpretieren und entsprechende informationssuchende Fragen basierend auf dem weiteren Kontext der Arbeit beantworten. Wir bewerten die Leistung von 18 führenden multimodalen Foundation-Modellen, darunter o4-mini, Gemini-2.5-Flash und Qwen2.5-VL. Unsere Ergebnisse zeigen eine signifikante Leistungslücke zwischen diesen Modellen und menschlichen Experten bei MISS-QA. Unsere Analyse der Modellleistung bei unbeantwortbaren Fragen sowie unsere detaillierte Fehleranalyse verdeutlichen weiterhin die Stärken und Schwächen aktueller Modelle und bieten wichtige Erkenntnisse, um Modelle im Verständnis multimodaler wissenschaftlicher Literatur zu verbessern.
English
This paper introduces MISS-QA, the first benchmark specifically designed to evaluate the ability of models to interpret schematic diagrams within scientific literature. MISS-QA comprises 1,500 expert-annotated examples over 465 scientific papers. In this benchmark, models are tasked with interpreting schematic diagrams that illustrate research overviews and answering corresponding information-seeking questions based on the broader context of the paper. We assess the performance of 18 frontier multimodal foundation models, including o4-mini, Gemini-2.5-Flash, and Qwen2.5-VL. We reveal a significant performance gap between these models and human experts on MISS-QA. Our analysis of model performance on unanswerable questions and our detailed error analysis further highlight the strengths and limitations of current models, offering key insights to enhance models in comprehending multimodal scientific literature.
PDF101July 16, 2025