SciVer: Evaluatie van Foundation Models voor Multimodale Wetenschappelijke Claimverificatie
SciVer: Evaluating Foundation Models for Multimodal Scientific Claim Verification
June 18, 2025
Auteurs: Chengye Wang, Yifei Shen, Zexi Kuang, Arman Cohan, Yilun Zhao
cs.AI
Samenvatting
We introduceren SciVer, de eerste benchmark specifiek ontworpen om het vermogen van foundationmodellen te evalueren om claims te verifiëren binnen een multimodale wetenschappelijke context. SciVer bestaat uit 3.000 door experts geannoteerde voorbeelden uit 1.113 wetenschappelijke artikelen, verdeeld over vier subsets, die elk een veelvoorkomend redeneertype in multimodale wetenschappelijke claimverificatie vertegenwoordigen. Om een gedetailleerde evaluatie mogelijk te maken, bevat elk voorbeeld door experts geannoteerd ondersteunend bewijs. We beoordelen de prestaties van 21 state-of-the-art multimodale foundationmodellen, waaronder o4-mini, Gemini-2.5-Flash, Llama-3.2-Vision en Qwen2.5-VL. Ons experiment toont een aanzienlijk prestatieverschil tussen deze modellen en menselijke experts op SciVer. Door een diepgaande analyse van retrieval-augmented generation (RAG) en door mensen uitgevoerde foutevaluaties, identificeren we kritieke beperkingen in huidige open-source modellen, wat belangrijke inzichten biedt om het begrip en redeneervermogen van modellen in multimodale wetenschappelijke literatuurtaken te verbeteren.
English
We introduce SciVer, the first benchmark specifically designed to evaluate
the ability of foundation models to verify claims within a multimodal
scientific context. SciVer consists of 3,000 expert-annotated examples over
1,113 scientific papers, covering four subsets, each representing a common
reasoning type in multimodal scientific claim verification. To enable
fine-grained evaluation, each example includes expert-annotated supporting
evidence. We assess the performance of 21 state-of-the-art multimodal
foundation models, including o4-mini, Gemini-2.5-Flash, Llama-3.2-Vision, and
Qwen2.5-VL. Our experiment reveals a substantial performance gap between these
models and human experts on SciVer. Through an in-depth analysis of
retrieval-augmented generation (RAG), and human-conducted error evaluations, we
identify critical limitations in current open-source models, offering key
insights to advance models' comprehension and reasoning in multimodal
scientific literature tasks.