SciVer: Avaliação de Modelos Fundamentais para Verificação de Afirmações Científicas Multimodais
SciVer: Evaluating Foundation Models for Multimodal Scientific Claim Verification
June 18, 2025
Autores: Chengye Wang, Yifei Shen, Zexi Kuang, Arman Cohan, Yilun Zhao
cs.AI
Resumo
Apresentamos o SciVer, o primeiro benchmark especificamente projetado para avaliar a capacidade de modelos de base (foundation models) em verificar afirmações dentro de um contexto científico multimodal. O SciVer consiste em 3.000 exemplos anotados por especialistas, abrangendo 1.113 artigos científicos, e é dividido em quatro subconjuntos, cada um representando um tipo comum de raciocínio na verificação de afirmações científicas multimodais. Para permitir uma avaliação detalhada, cada exemplo inclui evidências de suporte anotadas por especialistas. Avaliamos o desempenho de 21 modelos de base multimodais de última geração, incluindo o4-mini, Gemini-2.5-Flash, Llama-3.2-Vision e Qwen2.5-VL. Nossos experimentos revelam uma lacuna significativa de desempenho entre esses modelos e especialistas humanos no SciVer. Por meio de uma análise aprofundada da geração aumentada por recuperação (RAG) e de avaliações de erros conduzidas por humanos, identificamos limitações críticas nos modelos de código aberto atuais, oferecendo insights essenciais para avançar a compreensão e o raciocínio dos modelos em tarefas relacionadas à literatura científica multimodal.
English
We introduce SciVer, the first benchmark specifically designed to evaluate
the ability of foundation models to verify claims within a multimodal
scientific context. SciVer consists of 3,000 expert-annotated examples over
1,113 scientific papers, covering four subsets, each representing a common
reasoning type in multimodal scientific claim verification. To enable
fine-grained evaluation, each example includes expert-annotated supporting
evidence. We assess the performance of 21 state-of-the-art multimodal
foundation models, including o4-mini, Gemini-2.5-Flash, Llama-3.2-Vision, and
Qwen2.5-VL. Our experiment reveals a substantial performance gap between these
models and human experts on SciVer. Through an in-depth analysis of
retrieval-augmented generation (RAG), and human-conducted error evaluations, we
identify critical limitations in current open-source models, offering key
insights to advance models' comprehension and reasoning in multimodal
scientific literature tasks.