ChatPaper.aiChatPaper

SciVer : Évaluation des modèles de base pour la vérification multimodale des affirmations scientifiques

SciVer: Evaluating Foundation Models for Multimodal Scientific Claim Verification

June 18, 2025
Auteurs: Chengye Wang, Yifei Shen, Zexi Kuang, Arman Cohan, Yilun Zhao
cs.AI

Résumé

Nous présentons SciVer, le premier benchmark spécifiquement conçu pour évaluer la capacité des modèles de fondation à vérifier des affirmations dans un contexte scientifique multimodal. SciVer comprend 3 000 exemples annotés par des experts, issus de 1 113 articles scientifiques, couvrant quatre sous-ensembles, chacun représentant un type de raisonnement courant dans la vérification d’affirmations scientifiques multimodales. Pour permettre une évaluation fine, chaque exemple inclut des preuves justificatives annotées par des experts. Nous évaluons les performances de 21 modèles de fondation multimodaux de pointe, notamment o4-mini, Gemini-2.5-Flash, Llama-3.2-Vision et Qwen2.5-VL. Notre expérience révèle un écart de performance significatif entre ces modèles et les experts humains sur SciVer. À travers une analyse approfondie de la génération augmentée par récupération (RAG) et des évaluations d’erreurs menées par des humains, nous identifions des limitations critiques dans les modèles open-source actuels, offrant des insights clés pour améliorer la compréhension et le raisonnement des modèles dans les tâches liées à la littérature scientifique multimodale.
English
We introduce SciVer, the first benchmark specifically designed to evaluate the ability of foundation models to verify claims within a multimodal scientific context. SciVer consists of 3,000 expert-annotated examples over 1,113 scientific papers, covering four subsets, each representing a common reasoning type in multimodal scientific claim verification. To enable fine-grained evaluation, each example includes expert-annotated supporting evidence. We assess the performance of 21 state-of-the-art multimodal foundation models, including o4-mini, Gemini-2.5-Flash, Llama-3.2-Vision, and Qwen2.5-VL. Our experiment reveals a substantial performance gap between these models and human experts on SciVer. Through an in-depth analysis of retrieval-augmented generation (RAG), and human-conducted error evaluations, we identify critical limitations in current open-source models, offering key insights to advance models' comprehension and reasoning in multimodal scientific literature tasks.
PDF91June 19, 2025