MedQ-Bench: Оценка и исследование способностей мультимодальных языковых моделей (MLLMs) в анализе качества медицинских изображений
MedQ-Bench: Evaluating and Exploring Medical Image Quality Assessment Abilities in MLLMs
October 2, 2025
Авторы: Jiyao Liu, Jinjie Wei, Wanying Qu, Chenglong Ma, Junzhi Ning, Yunheng Li, Ying Chen, Xinzhe Luo, Pengcheng Chen, Xin Gao, Ming Hu, Huihui Xu, Xin Wang, Shujian Gao, Dingkang Yang, Zhongying Deng, Jin Ye, Lihao Liu, Junjun He, Ningsheng Xu
cs.AI
Аннотация
Оценка качества медицинских изображений (IQA) служит первым этапом обеспечения безопасности для клинического ИИ, однако существующие подходы ограничены скалярными, основанными на баллах метриками и не способны отражать описательный, человеко-подобный процесс рассуждений, который лежит в основе экспертной оценки. Чтобы устранить этот пробел, мы представляем MedQ-Bench — всеобъемлющий бенчмарк, который устанавливает парадигму восприятия и рассуждений для языковой оценки качества медицинских изображений с использованием мультимодальных больших языковых моделей (MLLMs). MedQ-Bench определяет две взаимодополняющие задачи: (1) MedQ-Perception, которая исследует способность к низкоуровневому восприятию через курируемые человеком вопросы о базовых визуальных атрибутах; и (2) MedQ-Reasoning, охватывающую как задачи рассуждений без эталона, так и сравнительные задачи, приближая оценку моделей к человеко-подобным рассуждениям о качестве изображений. Бенчмарк охватывает пять модальностей визуализации и более сорока атрибутов качества, включая в общей сложности 2600 перцептивных запросов и 708 оценок рассуждений, охватывая разнообразные источники изображений, включая аутентичные клинические снимки, изображения с имитированными деградациями на основе физических реконструкций и изображения, сгенерированные ИИ. Для оценки способности к рассуждениям мы предлагаем многомерный протокол судейства, который оценивает выходные данные моделей по четырем взаимодополняющим осям. Мы также проводим строгую проверку согласованности между человеком и ИИ, сравнивая суждения на основе LLM с оценками радиологов. Наша оценка 14 современных MLLM демонстрирует, что модели обладают начальными, но нестабильными навыками восприятия и рассуждений, с недостаточной точностью для надежного клинического использования. Эти результаты подчеркивают необходимость целенаправленной оптимизации MLLM в области оценки качества медицинских изображений. Мы надеемся, что MedQ-Bench послужит катализатором для дальнейших исследований и раскроет неиспользованный потенциал MLLM для оценки качества медицинских изображений.
English
Medical Image Quality Assessment (IQA) serves as the first-mile safety gate
for clinical AI, yet existing approaches remain constrained by scalar,
score-based metrics and fail to reflect the descriptive, human-like reasoning
process central to expert evaluation. To address this gap, we introduce
MedQ-Bench, a comprehensive benchmark that establishes a perception-reasoning
paradigm for language-based evaluation of medical image quality with
Multi-modal Large Language Models (MLLMs). MedQ-Bench defines two complementary
tasks: (1) MedQ-Perception, which probes low-level perceptual capability via
human-curated questions on fundamental visual attributes; and (2)
MedQ-Reasoning, encompassing both no-reference and comparison reasoning tasks,
aligning model evaluation with human-like reasoning on image quality. The
benchmark spans five imaging modalities and over forty quality attributes,
totaling 2,600 perceptual queries and 708 reasoning assessments, covering
diverse image sources including authentic clinical acquisitions, images with
simulated degradations via physics-based reconstructions, and AI-generated
images. To evaluate reasoning ability, we propose a multi-dimensional judging
protocol that assesses model outputs along four complementary axes. We further
conduct rigorous human-AI alignment validation by comparing LLM-based judgement
with radiologists. Our evaluation of 14 state-of-the-art MLLMs demonstrates
that models exhibit preliminary but unstable perceptual and reasoning skills,
with insufficient accuracy for reliable clinical use. These findings highlight
the need for targeted optimization of MLLMs in medical IQA. We hope that
MedQ-Bench will catalyze further exploration and unlock the untapped potential
of MLLMs for medical image quality evaluation.