MedQ-Bench : Évaluation et exploration des capacités d'évaluation de la qualité des images médicales dans les MLLM
MedQ-Bench: Evaluating and Exploring Medical Image Quality Assessment Abilities in MLLMs
October 2, 2025
papers.authors: Jiyao Liu, Jinjie Wei, Wanying Qu, Chenglong Ma, Junzhi Ning, Yunheng Li, Ying Chen, Xinzhe Luo, Pengcheng Chen, Xin Gao, Ming Hu, Huihui Xu, Xin Wang, Shujian Gao, Dingkang Yang, Zhongying Deng, Jin Ye, Lihao Liu, Junjun He, Ningsheng Xu
cs.AI
papers.abstract
L'évaluation de la qualité des images médicales (IQA) constitue la première barrière de sécurité pour l'IA clinique. Cependant, les approches existantes restent limitées par des métriques scalaires basées sur des scores et ne parviennent pas à refléter le processus de raisonnement descriptif, semblable à celui des experts, au cœur de l'évaluation. Pour combler cette lacune, nous introduisons MedQ-Bench, un benchmark complet qui établit un paradigme de perception-raisonnement pour l'évaluation de la qualité des images médicales basée sur le langage avec des modèles de langage multi-modaux (MLLMs). MedQ-Bench définit deux tâches complémentaires : (1) MedQ-Perception, qui explore la capacité perceptive de bas niveau via des questions élaborées par des humains sur les attributs visuels fondamentaux ; et (2) MedQ-Reasoning, englobant des tâches de raisonnement sans référence et comparatives, alignant l'évaluation des modèles sur un raisonnement humain concernant la qualité des images. Le benchmark couvre cinq modalités d'imagerie et plus de quarante attributs de qualité, totalisant 2 600 requêtes perceptives et 708 évaluations de raisonnement, incluant des sources d'images variées telles que des acquisitions cliniques authentiques, des images avec des dégradations simulées via des reconstructions basées sur la physique, et des images générées par IA. Pour évaluer la capacité de raisonnement, nous proposons un protocole de jugement multidimensionnel qui évalue les sorties des modèles selon quatre axes complémentaires. Nous validons rigoureusement l'alignement humain-IA en comparant les jugements basés sur les LLM avec ceux des radiologues. Notre évaluation de 14 MLLMs de pointe montre que les modèles présentent des compétences perceptives et de raisonnement préliminaires mais instables, avec une précision insuffisante pour une utilisation clinique fiable. Ces résultats soulignent la nécessité d'une optimisation ciblée des MLLMs dans l'IQA médicale. Nous espérons que MedQ-Bench catalysera des explorations supplémentaires et débloquera le potentiel inexploité des MLLMs pour l'évaluation de la qualité des images médicales.
English
Medical Image Quality Assessment (IQA) serves as the first-mile safety gate
for clinical AI, yet existing approaches remain constrained by scalar,
score-based metrics and fail to reflect the descriptive, human-like reasoning
process central to expert evaluation. To address this gap, we introduce
MedQ-Bench, a comprehensive benchmark that establishes a perception-reasoning
paradigm for language-based evaluation of medical image quality with
Multi-modal Large Language Models (MLLMs). MedQ-Bench defines two complementary
tasks: (1) MedQ-Perception, which probes low-level perceptual capability via
human-curated questions on fundamental visual attributes; and (2)
MedQ-Reasoning, encompassing both no-reference and comparison reasoning tasks,
aligning model evaluation with human-like reasoning on image quality. The
benchmark spans five imaging modalities and over forty quality attributes,
totaling 2,600 perceptual queries and 708 reasoning assessments, covering
diverse image sources including authentic clinical acquisitions, images with
simulated degradations via physics-based reconstructions, and AI-generated
images. To evaluate reasoning ability, we propose a multi-dimensional judging
protocol that assesses model outputs along four complementary axes. We further
conduct rigorous human-AI alignment validation by comparing LLM-based judgement
with radiologists. Our evaluation of 14 state-of-the-art MLLMs demonstrates
that models exhibit preliminary but unstable perceptual and reasoning skills,
with insufficient accuracy for reliable clinical use. These findings highlight
the need for targeted optimization of MLLMs in medical IQA. We hope that
MedQ-Bench will catalyze further exploration and unlock the untapped potential
of MLLMs for medical image quality evaluation.