MedQ-Bench: Bewertung und Erforschung der Fähigkeiten zur Beurteilung der medizinischen Bildqualität in MLLMs
MedQ-Bench: Evaluating and Exploring Medical Image Quality Assessment Abilities in MLLMs
October 2, 2025
papers.authors: Jiyao Liu, Jinjie Wei, Wanying Qu, Chenglong Ma, Junzhi Ning, Yunheng Li, Ying Chen, Xinzhe Luo, Pengcheng Chen, Xin Gao, Ming Hu, Huihui Xu, Xin Wang, Shujian Gao, Dingkang Yang, Zhongying Deng, Jin Ye, Lihao Liu, Junjun He, Ningsheng Xu
cs.AI
papers.abstract
Die Bewertung der medizinischen Bildqualität (Medical Image Quality Assessment, IQA) fungiert als erste Sicherheitsbarriere für klinische KI-Systeme. Dennoch bleiben bestehende Ansätze durch skalare, punktbasierte Metriken eingeschränkt und spiegeln nicht den beschreibenden, menschenähnlichen Denkprozess wider, der für die Expertenbewertung zentral ist. Um diese Lücke zu schließen, stellen wir MedQ-Bench vor, einen umfassenden Benchmark, der ein Wahrnehmungs-Denk-Paradigma für die sprachbasierte Bewertung der medizinischen Bildqualität mit Multi-modalen Großen Sprachmodellen (MLLMs) etabliert. MedQ-Bench definiert zwei komplementäre Aufgaben: (1) MedQ-Perception, das die Fähigkeit zur Wahrnehmung auf niedriger Ebene durch von Menschen kuratierte Fragen zu grundlegenden visuellen Attributen untersucht; und (2) MedQ-Reasoning, das sowohl Referenz-freie als auch vergleichende Denkaufgaben umfasst und die Modellbewertung mit menschenähnlichem Denken zur Bildqualität in Einklang bringt. Der Benchmark umfasst fünf Bildgebungsmodalitäten und über vierzig Qualitätsattribute, insgesamt 2.600 Wahrnehmungsfragen und 708 Denkbewertungen, die verschiedene Bildquellen abdecken, darunter authentische klinische Aufnahmen, Bilder mit simulierten Verschlechterungen durch physikbasierte Rekonstruktionen und KI-generierte Bilder. Um die Denkfähigkeit zu bewerten, schlagen wir ein mehrdimensionales Bewertungsprotokoll vor, das Modellausgaben entlang vier komplementärer Achsen beurteilt. Darüber hinaus führen wir eine rigorose Validierung der Mensch-KI-Ausrichtung durch, indem wir die auf LLMs basierenden Urteile mit denen von Radiologen vergleichen. Unsere Bewertung von 14 modernsten MLLMs zeigt, dass Modelle zwar vorläufige, aber instabile Wahrnehmungs- und Denkfähigkeiten aufweisen, deren Genauigkeit für eine zuverlässige klinische Anwendung jedoch nicht ausreicht. Diese Ergebnisse unterstreichen die Notwendigkeit einer gezielten Optimierung von MLLMs in der medizinischen IQA. Wir hoffen, dass MedQ-Bench weitere Explorationen anstoßen und das ungenutzte Potenzial von MLLMs für die Bewertung der medizinischen Bildqualität freisetzen wird.
English
Medical Image Quality Assessment (IQA) serves as the first-mile safety gate
for clinical AI, yet existing approaches remain constrained by scalar,
score-based metrics and fail to reflect the descriptive, human-like reasoning
process central to expert evaluation. To address this gap, we introduce
MedQ-Bench, a comprehensive benchmark that establishes a perception-reasoning
paradigm for language-based evaluation of medical image quality with
Multi-modal Large Language Models (MLLMs). MedQ-Bench defines two complementary
tasks: (1) MedQ-Perception, which probes low-level perceptual capability via
human-curated questions on fundamental visual attributes; and (2)
MedQ-Reasoning, encompassing both no-reference and comparison reasoning tasks,
aligning model evaluation with human-like reasoning on image quality. The
benchmark spans five imaging modalities and over forty quality attributes,
totaling 2,600 perceptual queries and 708 reasoning assessments, covering
diverse image sources including authentic clinical acquisitions, images with
simulated degradations via physics-based reconstructions, and AI-generated
images. To evaluate reasoning ability, we propose a multi-dimensional judging
protocol that assesses model outputs along four complementary axes. We further
conduct rigorous human-AI alignment validation by comparing LLM-based judgement
with radiologists. Our evaluation of 14 state-of-the-art MLLMs demonstrates
that models exhibit preliminary but unstable perceptual and reasoning skills,
with insufficient accuracy for reliable clinical use. These findings highlight
the need for targeted optimization of MLLMs in medical IQA. We hope that
MedQ-Bench will catalyze further exploration and unlock the untapped potential
of MLLMs for medical image quality evaluation.