SciVer: Bewertung von Foundation-Modellen zur multimodalen Überprüfung wissenschaftlicher Behauptungen
SciVer: Evaluating Foundation Models for Multimodal Scientific Claim Verification
June 18, 2025
Autoren: Chengye Wang, Yifei Shen, Zexi Kuang, Arman Cohan, Yilun Zhao
cs.AI
Zusammenfassung
Wir stellen SciVer vor, den ersten Benchmark, der speziell entwickelt wurde, um die Fähigkeit von Foundation-Modellen zur Überprüfung von Behauptungen in einem multimodalen wissenschaftlichen Kontext zu bewerten. SciVer besteht aus 3.000 von Experten annotierten Beispielen aus 1.113 wissenschaftlichen Arbeiten, die vier Teilmengen abdecken, von denen jede einen gängigen Argumentationstyp in der multimodalen wissenschaftlichen Behauptungsüberprüfung repräsentiert. Um eine detaillierte Bewertung zu ermöglichen, enthält jedes Beispiel von Experten annotierte unterstützende Belege. Wir bewerten die Leistung von 21 state-of-the-art multimodalen Foundation-Modellen, darunter o4-mini, Gemini-2.5-Flash, Llama-3.2-Vision und Qwen2.5-VL. Unser Experiment zeigt eine erhebliche Leistungslücke zwischen diesen Modellen und menschlichen Experten bei SciVer. Durch eine detaillierte Analyse von Retrieval-Augmented Generation (RAG) und von Menschen durchgeführten Fehlerbewertungen identifizieren wir kritische Einschränkungen in aktuellen Open-Source-Modellen und bieten wichtige Erkenntnisse, um das Verständnis und die Argumentationsfähigkeit von Modellen in Aufgaben der multimodalen wissenschaftlichen Literatur voranzutreiben.
English
We introduce SciVer, the first benchmark specifically designed to evaluate
the ability of foundation models to verify claims within a multimodal
scientific context. SciVer consists of 3,000 expert-annotated examples over
1,113 scientific papers, covering four subsets, each representing a common
reasoning type in multimodal scientific claim verification. To enable
fine-grained evaluation, each example includes expert-annotated supporting
evidence. We assess the performance of 21 state-of-the-art multimodal
foundation models, including o4-mini, Gemini-2.5-Flash, Llama-3.2-Vision, and
Qwen2.5-VL. Our experiment reveals a substantial performance gap between these
models and human experts on SciVer. Through an in-depth analysis of
retrieval-augmented generation (RAG), and human-conducted error evaluations, we
identify critical limitations in current open-source models, offering key
insights to advance models' comprehension and reasoning in multimodal
scientific literature tasks.