ChatPaper.aiChatPaper

PRISMM-Bench: Бенчмарк для оценки мультимодальных несоответствий, основанных на экспертной оценке

PRISMM-Bench: A Benchmark of Peer-Review Grounded Multimodal Inconsistencies

October 18, 2025
Авторы: Lukas Selch, Yufang Hou, M. Jehanzeb Mirza, Sivan Doveh, James Glass, Rogerio Feris, Wei Lin
cs.AI

Аннотация

Крупные мультимодальные модели (LMMs) всё чаще применяются в научных исследованиях, однако остаётся неясным, способны ли они надёжно понимать и рассуждать над мультимодальной сложностью научных статей. Основная проблема заключается в обнаружении и устранении несоответствий между текстом, графиками, таблицами и уравнениями — проблем, которые часто являются тонкими, специфичными для предметной области и в конечном итоге подрывают ясность, воспроизводимость и доверие. Существующие бенчмарки игнорируют эту проблему, либо изолируя отдельные модальности, либо полагаясь на синтетические ошибки, которые не отражают реальную сложность. Мы представляем PRISMM-Bench (Peer-Review-sourced Inconsistency Set for Multimodal Models) — первый бенчмарк, основанный на реальных несоответствиях, отмеченных рецензентами в научных статьях. С помощью многоэтапного процесса, включающего анализ рецензий, фильтрацию с использованием LLM и проверку людьми, мы собрали 262 несоответствия из 242 статей. На основе этого набора мы разработали три задачи: идентификация несоответствий, их устранение и сопоставление пар, которые оценивают способность модели обнаруживать, исправлять и рассуждать над несоответствиями между различными модальностями. Кроме того, чтобы решить известную проблему "выборных" упрощений в оценке с множественным выбором, где модели используют шаблоны ответов, не понимая сути вопроса, мы вводим структурированные JSON-представления ответов, которые минимизируют лингвистические предубеждения, снижая зависимость от поверхностных стилистических подсказок. Мы протестировали 21 ведущую LMM, включая крупные модели с открытыми весами (GLM-4.5V 106B, InternVL3 78B) и проприетарные модели (Gemini 2.5 Pro, GPT-5 с высокой способностью к рассуждению). Результаты показывают крайне низкую производительность (26,1–54,2%), подчеркивая сложность мультимодального научного рассуждения и стимулируя прогресс в создании надёжных научных ассистентов.
English
Large Multimodal Models (LMMs) are increasingly applied to scientific research, yet it remains unclear whether they can reliably understand and reason over the multimodal complexity of papers. A central challenge lies in detecting and resolving inconsistencies across text, figures, tables, and equations, issues that are often subtle, domain-specific, and ultimately undermine clarity, reproducibility, and trust. Existing benchmarks overlook this issue, either isolating single modalities or relying on synthetic errors that fail to capture real-world complexity. We introduce PRISMM-Bench (Peer-Review-sourced Inconsistency Set for Multimodal Models), the first benchmark grounded in real reviewer-flagged inconsistencies in scientific papers. Through a multi-stage pipeline of review mining, LLM-assisted filtering and human verification, we curate 262 inconsistencies from 242 papers. Based on this set, we design three tasks, namely inconsistency identification, remedy and pair matching, which assess a model's capacity to detect, correct, and reason over inconsistencies across different modalities. Furthermore, to address the notorious problem of choice-only shortcuts in multiple-choice evaluation, where models exploit answer patterns without truly understanding the question, we further introduce structured JSON-based answer representations that minimize linguistic biases by reducing reliance on superficial stylistic cues. We benchmark 21 leading LMMs, including large open-weight models (GLM-4.5V 106B, InternVL3 78B) and proprietary models (Gemini 2.5 Pro, GPT-5 with high reasoning). Results reveal strikingly low performance (26.1-54.2%), underscoring the challenge of multimodal scientific reasoning and motivating progress towards trustworthy scientific assistants.
PDF32October 22, 2025