ChatPaper.aiChatPaper

SciVer: Avaliação de Modelos Fundamentais para Verificação de Afirmações Científicas Multimodais

SciVer: Evaluating Foundation Models for Multimodal Scientific Claim Verification

June 18, 2025
Autores: Chengye Wang, Yifei Shen, Zexi Kuang, Arman Cohan, Yilun Zhao
cs.AI

Resumo

Apresentamos o SciVer, o primeiro benchmark especificamente projetado para avaliar a capacidade de modelos de base (foundation models) em verificar afirmações dentro de um contexto científico multimodal. O SciVer consiste em 3.000 exemplos anotados por especialistas, abrangendo 1.113 artigos científicos, e é dividido em quatro subconjuntos, cada um representando um tipo comum de raciocínio na verificação de afirmações científicas multimodais. Para permitir uma avaliação detalhada, cada exemplo inclui evidências de suporte anotadas por especialistas. Avaliamos o desempenho de 21 modelos de base multimodais de última geração, incluindo o4-mini, Gemini-2.5-Flash, Llama-3.2-Vision e Qwen2.5-VL. Nossos experimentos revelam uma lacuna significativa de desempenho entre esses modelos e especialistas humanos no SciVer. Por meio de uma análise aprofundada da geração aumentada por recuperação (RAG) e de avaliações de erros conduzidas por humanos, identificamos limitações críticas nos modelos de código aberto atuais, oferecendo insights essenciais para avançar a compreensão e o raciocínio dos modelos em tarefas relacionadas à literatura científica multimodal.
English
We introduce SciVer, the first benchmark specifically designed to evaluate the ability of foundation models to verify claims within a multimodal scientific context. SciVer consists of 3,000 expert-annotated examples over 1,113 scientific papers, covering four subsets, each representing a common reasoning type in multimodal scientific claim verification. To enable fine-grained evaluation, each example includes expert-annotated supporting evidence. We assess the performance of 21 state-of-the-art multimodal foundation models, including o4-mini, Gemini-2.5-Flash, Llama-3.2-Vision, and Qwen2.5-VL. Our experiment reveals a substantial performance gap between these models and human experts on SciVer. Through an in-depth analysis of retrieval-augmented generation (RAG), and human-conducted error evaluations, we identify critical limitations in current open-source models, offering key insights to advance models' comprehension and reasoning in multimodal scientific literature tasks.
PDF132June 19, 2025