SciVer : Évaluation des modèles de base pour la vérification multimodale des affirmations scientifiques
SciVer: Evaluating Foundation Models for Multimodal Scientific Claim Verification
June 18, 2025
Auteurs: Chengye Wang, Yifei Shen, Zexi Kuang, Arman Cohan, Yilun Zhao
cs.AI
Résumé
Nous présentons SciVer, le premier benchmark spécifiquement conçu pour évaluer la capacité des modèles de fondation à vérifier des affirmations dans un contexte scientifique multimodal. SciVer comprend 3 000 exemples annotés par des experts, issus de 1 113 articles scientifiques, couvrant quatre sous-ensembles, chacun représentant un type de raisonnement courant dans la vérification d’affirmations scientifiques multimodales. Pour permettre une évaluation fine, chaque exemple inclut des preuves justificatives annotées par des experts. Nous évaluons les performances de 21 modèles de fondation multimodaux de pointe, notamment o4-mini, Gemini-2.5-Flash, Llama-3.2-Vision et Qwen2.5-VL. Notre expérience révèle un écart de performance significatif entre ces modèles et les experts humains sur SciVer. À travers une analyse approfondie de la génération augmentée par récupération (RAG) et des évaluations d’erreurs menées par des humains, nous identifions des limitations critiques dans les modèles open-source actuels, offrant des insights clés pour améliorer la compréhension et le raisonnement des modèles dans les tâches liées à la littérature scientifique multimodale.
English
We introduce SciVer, the first benchmark specifically designed to evaluate
the ability of foundation models to verify claims within a multimodal
scientific context. SciVer consists of 3,000 expert-annotated examples over
1,113 scientific papers, covering four subsets, each representing a common
reasoning type in multimodal scientific claim verification. To enable
fine-grained evaluation, each example includes expert-annotated supporting
evidence. We assess the performance of 21 state-of-the-art multimodal
foundation models, including o4-mini, Gemini-2.5-Flash, Llama-3.2-Vision, and
Qwen2.5-VL. Our experiment reveals a substantial performance gap between these
models and human experts on SciVer. Through an in-depth analysis of
retrieval-augmented generation (RAG), and human-conducted error evaluations, we
identify critical limitations in current open-source models, offering key
insights to advance models' comprehension and reasoning in multimodal
scientific literature tasks.