MedQ-Bench: Evaluatie en Verkenning van Medische Beeldkwaliteitsbeoordeling in MLLM's
MedQ-Bench: Evaluating and Exploring Medical Image Quality Assessment Abilities in MLLMs
October 2, 2025
Auteurs: Jiyao Liu, Jinjie Wei, Wanying Qu, Chenglong Ma, Junzhi Ning, Yunheng Li, Ying Chen, Xinzhe Luo, Pengcheng Chen, Xin Gao, Ming Hu, Huihui Xu, Xin Wang, Shujian Gao, Dingkang Yang, Zhongying Deng, Jin Ye, Lihao Liu, Junjun He, Ningsheng Xu
cs.AI
Samenvatting
Medische Beeldkwaliteitsbeoordeling (IQA) fungeert als de eerste veiligheidsbarrière voor klinische AI, maar bestaande benaderingen blijven beperkt door scalaire, score-gebaseerde metrieken en slagen er niet in om het beschrijvende, mensachtige redeneerproces dat centraal staat bij expertbeoordeling weer te geven. Om deze kloof te overbruggen, introduceren we MedQ-Bench, een uitgebreide benchmark die een perceptie-redeneerparadigma vaststelt voor taalgebaseerde evaluatie van medische beeldkwaliteit met Multi-modale Grote Taalmodellen (MLLMs). MedQ-Bench definieert twee complementaire taken: (1) MedQ-Perceptie, dat het laagniveau perceptievermogen onderzoekt via door mensen samengestelde vragen over fundamentele visuele attributen; en (2) MedQ-Redenering, dat zowel no-reference als vergelijkende redeneertaken omvat, waardoor modelbeoordeling wordt afgestemd op mensachtig redeneren over beeldkwaliteit. De benchmark beslaat vijf beeldvormingsmodaliteiten en meer dan veertig kwaliteitsattributen, met in totaal 2.600 perceptuele vragen en 708 redeneerbeoordelingen, en bestrijkt diverse beeldbronnen, waaronder authentieke klinische opnames, beelden met gesimuleerde degradaties via fysica-gebaseerde reconstructies, en AI-gegenereerde beelden. Om het redeneervermogen te evalueren, stellen we een multidimensionaal beoordelingsprotocol voor dat modeluitvoer langs vier complementaire assen beoordeelt. We voeren verder een grondige validatie van mens-AI-afstemming uit door LLM-gebaseerde oordelen te vergelijken met radiologen. Onze evaluatie van 14 state-of-the-art MLLMs toont aan dat modellen voorlopige maar onstabiele perceptuele en redeneervaardigheden vertonen, met onvoldoende nauwkeurigheid voor betrouwbaar klinisch gebruik. Deze bevindingen benadrukken de noodzaak van gerichte optimalisatie van MLLMs in medische IQA. We hopen dat MedQ-Bench verdere verkenning zal stimuleren en het onbenutte potentieel van MLLMs voor medische beeldkwaliteitsevaluatie zal ontsluiten.
English
Medical Image Quality Assessment (IQA) serves as the first-mile safety gate
for clinical AI, yet existing approaches remain constrained by scalar,
score-based metrics and fail to reflect the descriptive, human-like reasoning
process central to expert evaluation. To address this gap, we introduce
MedQ-Bench, a comprehensive benchmark that establishes a perception-reasoning
paradigm for language-based evaluation of medical image quality with
Multi-modal Large Language Models (MLLMs). MedQ-Bench defines two complementary
tasks: (1) MedQ-Perception, which probes low-level perceptual capability via
human-curated questions on fundamental visual attributes; and (2)
MedQ-Reasoning, encompassing both no-reference and comparison reasoning tasks,
aligning model evaluation with human-like reasoning on image quality. The
benchmark spans five imaging modalities and over forty quality attributes,
totaling 2,600 perceptual queries and 708 reasoning assessments, covering
diverse image sources including authentic clinical acquisitions, images with
simulated degradations via physics-based reconstructions, and AI-generated
images. To evaluate reasoning ability, we propose a multi-dimensional judging
protocol that assesses model outputs along four complementary axes. We further
conduct rigorous human-AI alignment validation by comparing LLM-based judgement
with radiologists. Our evaluation of 14 state-of-the-art MLLMs demonstrates
that models exhibit preliminary but unstable perceptual and reasoning skills,
with insufficient accuracy for reliable clinical use. These findings highlight
the need for targeted optimization of MLLMs in medical IQA. We hope that
MedQ-Bench will catalyze further exploration and unlock the untapped potential
of MLLMs for medical image quality evaluation.