MedQ-Bench: Valutazione ed Esplorazione delle Capacità di Valutazione della Qualità delle Immagini Mediche nei MLLM
MedQ-Bench: Evaluating and Exploring Medical Image Quality Assessment Abilities in MLLMs
October 2, 2025
Autori: Jiyao Liu, Jinjie Wei, Wanying Qu, Chenglong Ma, Junzhi Ning, Yunheng Li, Ying Chen, Xinzhe Luo, Pengcheng Chen, Xin Gao, Ming Hu, Huihui Xu, Xin Wang, Shujian Gao, Dingkang Yang, Zhongying Deng, Jin Ye, Lihao Liu, Junjun He, Ningsheng Xu
cs.AI
Abstract
La valutazione della qualità delle immagini mediche (IQA) rappresenta il primo controllo di sicurezza per l'IA clinica, tuttavia gli approcci esistenti rimangono limitati da metriche scalari basate su punteggi e non riescono a riflettere il processo descrittivo e ragionato, simile a quello umano, centrale nella valutazione esperta. Per colmare questa lacuna, introduciamo MedQ-Bench, un benchmark completo che stabilisce un paradigma di percezione-ragionamento per la valutazione basata sul linguaggio della qualità delle immagini mediche con Modelli Linguistici Multimodali di Grande Scala (MLLMs). MedQ-Bench definisce due compiti complementari: (1) MedQ-Perception, che esplora la capacità percettiva di basso livello attraverso domande curate da esseri umani su attributi visivi fondamentali; e (2) MedQ-Reasoning, che comprende sia compiti di ragionamento senza riferimento che di confronto, allineando la valutazione del modello al ragionamento simile a quello umano sulla qualità dell'immagine. Il benchmark copre cinque modalità di imaging e oltre quaranta attributi di qualità, per un totale di 2.600 query percettive e 708 valutazioni di ragionamento, includendo diverse fonti di immagini come acquisizioni cliniche autentiche, immagini con degradazioni simulate tramite ricostruzioni basate sulla fisica e immagini generate dall'IA. Per valutare la capacità di ragionamento, proponiamo un protocollo di giudizio multidimensionale che valuta gli output del modello lungo quattro assi complementari. Inoltre, conduciamo una rigorosa validazione dell'allineamento uomo-IA confrontando il giudizio basato su LLM con quello dei radiologi. La nostra valutazione di 14 MLLMs all'avanguardia dimostra che i modelli mostrano abilità percettive e di ragionamento preliminari ma instabili, con un'accuratezza insufficiente per un uso clinico affidabile. Questi risultati evidenziano la necessità di un'ottimizzazione mirata degli MLLMs nella IQA medica. Speriamo che MedQ-Bench catalizzi ulteriori esplorazioni e sblocchi il potenziale inesplorato degli MLLMs per la valutazione della qualità delle immagini mediche.
English
Medical Image Quality Assessment (IQA) serves as the first-mile safety gate
for clinical AI, yet existing approaches remain constrained by scalar,
score-based metrics and fail to reflect the descriptive, human-like reasoning
process central to expert evaluation. To address this gap, we introduce
MedQ-Bench, a comprehensive benchmark that establishes a perception-reasoning
paradigm for language-based evaluation of medical image quality with
Multi-modal Large Language Models (MLLMs). MedQ-Bench defines two complementary
tasks: (1) MedQ-Perception, which probes low-level perceptual capability via
human-curated questions on fundamental visual attributes; and (2)
MedQ-Reasoning, encompassing both no-reference and comparison reasoning tasks,
aligning model evaluation with human-like reasoning on image quality. The
benchmark spans five imaging modalities and over forty quality attributes,
totaling 2,600 perceptual queries and 708 reasoning assessments, covering
diverse image sources including authentic clinical acquisitions, images with
simulated degradations via physics-based reconstructions, and AI-generated
images. To evaluate reasoning ability, we propose a multi-dimensional judging
protocol that assesses model outputs along four complementary axes. We further
conduct rigorous human-AI alignment validation by comparing LLM-based judgement
with radiologists. Our evaluation of 14 state-of-the-art MLLMs demonstrates
that models exhibit preliminary but unstable perceptual and reasoning skills,
with insufficient accuracy for reliable clinical use. These findings highlight
the need for targeted optimization of MLLMs in medical IQA. We hope that
MedQ-Bench will catalyze further exploration and unlock the untapped potential
of MLLMs for medical image quality evaluation.