SciVer: Valutazione di Modelli di Base per la Verifica Multimodale di Affermazioni Scientifiche
SciVer: Evaluating Foundation Models for Multimodal Scientific Claim Verification
June 18, 2025
Autori: Chengye Wang, Yifei Shen, Zexi Kuang, Arman Cohan, Yilun Zhao
cs.AI
Abstract
Presentiamo SciVer, il primo benchmark specificamente progettato per valutare la capacità dei modelli di base di verificare affermazioni in un contesto scientifico multimodale. SciVer è composto da 3.000 esempi annotati da esperti su 1.113 articoli scientifici, coprendo quattro sottoinsiemi, ciascuno dei quali rappresenta un tipo comune di ragionamento nella verifica di affermazioni scientifiche multimodali. Per consentire una valutazione dettagliata, ogni esempio include prove di supporto annotate da esperti. Valutiamo le prestazioni di 21 modelli di base multimodali all'avanguardia, tra cui o4-mini, Gemini-2.5-Flash, Llama-3.2-Vision e Qwen2.5-VL. Il nostro esperimento rivela un divario significativo nelle prestazioni tra questi modelli e gli esperti umani su SciVer. Attraverso un'analisi approfondita della generazione aumentata dal recupero (RAG) e delle valutazioni degli errori condotte da umani, identifichiamo limitazioni critiche nei modelli open-source attuali, offrendo intuizioni chiave per avanzare la comprensione e il ragionamento dei modelli nei compiti legati alla letteratura scientifica multimodale.
English
We introduce SciVer, the first benchmark specifically designed to evaluate
the ability of foundation models to verify claims within a multimodal
scientific context. SciVer consists of 3,000 expert-annotated examples over
1,113 scientific papers, covering four subsets, each representing a common
reasoning type in multimodal scientific claim verification. To enable
fine-grained evaluation, each example includes expert-annotated supporting
evidence. We assess the performance of 21 state-of-the-art multimodal
foundation models, including o4-mini, Gemini-2.5-Flash, Llama-3.2-Vision, and
Qwen2.5-VL. Our experiment reveals a substantial performance gap between these
models and human experts on SciVer. Through an in-depth analysis of
retrieval-augmented generation (RAG), and human-conducted error evaluations, we
identify critical limitations in current open-source models, offering key
insights to advance models' comprehension and reasoning in multimodal
scientific literature tasks.