ChatPaper.aiChatPaper

SciVer: Evaluatie van Foundation Models voor Multimodale Wetenschappelijke Claimverificatie

SciVer: Evaluating Foundation Models for Multimodal Scientific Claim Verification

June 18, 2025
Auteurs: Chengye Wang, Yifei Shen, Zexi Kuang, Arman Cohan, Yilun Zhao
cs.AI

Samenvatting

We introduceren SciVer, de eerste benchmark specifiek ontworpen om het vermogen van foundationmodellen te evalueren om claims te verifiëren binnen een multimodale wetenschappelijke context. SciVer bestaat uit 3.000 door experts geannoteerde voorbeelden uit 1.113 wetenschappelijke artikelen, verdeeld over vier subsets, die elk een veelvoorkomend redeneertype in multimodale wetenschappelijke claimverificatie vertegenwoordigen. Om een gedetailleerde evaluatie mogelijk te maken, bevat elk voorbeeld door experts geannoteerd ondersteunend bewijs. We beoordelen de prestaties van 21 state-of-the-art multimodale foundationmodellen, waaronder o4-mini, Gemini-2.5-Flash, Llama-3.2-Vision en Qwen2.5-VL. Ons experiment toont een aanzienlijk prestatieverschil tussen deze modellen en menselijke experts op SciVer. Door een diepgaande analyse van retrieval-augmented generation (RAG) en door mensen uitgevoerde foutevaluaties, identificeren we kritieke beperkingen in huidige open-source modellen, wat belangrijke inzichten biedt om het begrip en redeneervermogen van modellen in multimodale wetenschappelijke literatuurtaken te verbeteren.
English
We introduce SciVer, the first benchmark specifically designed to evaluate the ability of foundation models to verify claims within a multimodal scientific context. SciVer consists of 3,000 expert-annotated examples over 1,113 scientific papers, covering four subsets, each representing a common reasoning type in multimodal scientific claim verification. To enable fine-grained evaluation, each example includes expert-annotated supporting evidence. We assess the performance of 21 state-of-the-art multimodal foundation models, including o4-mini, Gemini-2.5-Flash, Llama-3.2-Vision, and Qwen2.5-VL. Our experiment reveals a substantial performance gap between these models and human experts on SciVer. Through an in-depth analysis of retrieval-augmented generation (RAG), and human-conducted error evaluations, we identify critical limitations in current open-source models, offering key insights to advance models' comprehension and reasoning in multimodal scientific literature tasks.
PDF122June 19, 2025