ChatPaper.aiChatPaper

SciVer: Оценка базовых моделей для мультимодальной проверки научных утверждений

SciVer: Evaluating Foundation Models for Multimodal Scientific Claim Verification

June 18, 2025
Авторы: Chengye Wang, Yifei Shen, Zexi Kuang, Arman Cohan, Yilun Zhao
cs.AI

Аннотация

Мы представляем SciVer — первый бенчмарк, специально разработанный для оценки способности базовых моделей проверять утверждения в мультимодальном научном контексте. SciVer включает 3000 примеров, аннотированных экспертами, на основе 1113 научных статей, охватывающих четыре подмножества, каждое из которых представляет распространённый тип рассуждений в мультимодальной проверке научных утверждений. Для детальной оценки каждый пример содержит аннотированные экспертами подтверждающие доказательства. Мы оцениваем производительность 21 современной мультимодальной базовой модели, включая o4-mini, Gemini-2.5-Flash, Llama-3.2-Vision и Qwen2.5-VL. Наши эксперименты выявили значительный разрыв в производительности между этими моделями и экспертами-людьми на SciVer. Благодаря углублённому анализу генерации с использованием извлечения данных (RAG) и оценке ошибок, проведённой людьми, мы выявили ключевые ограничения современных открытых моделей, предлагая важные инсайты для улучшения понимания и рассуждений моделей в задачах работы с мультимодальной научной литературой.
English
We introduce SciVer, the first benchmark specifically designed to evaluate the ability of foundation models to verify claims within a multimodal scientific context. SciVer consists of 3,000 expert-annotated examples over 1,113 scientific papers, covering four subsets, each representing a common reasoning type in multimodal scientific claim verification. To enable fine-grained evaluation, each example includes expert-annotated supporting evidence. We assess the performance of 21 state-of-the-art multimodal foundation models, including o4-mini, Gemini-2.5-Flash, Llama-3.2-Vision, and Qwen2.5-VL. Our experiment reveals a substantial performance gap between these models and human experts on SciVer. Through an in-depth analysis of retrieval-augmented generation (RAG), and human-conducted error evaluations, we identify critical limitations in current open-source models, offering key insights to advance models' comprehension and reasoning in multimodal scientific literature tasks.
PDF91June 19, 2025