MedQ-Bench: Evaluación y Exploración de las Capacidades de Evaluación de Calidad de Imágenes Médicas en MLLMs
MedQ-Bench: Evaluating and Exploring Medical Image Quality Assessment Abilities in MLLMs
October 2, 2025
Autores: Jiyao Liu, Jinjie Wei, Wanying Qu, Chenglong Ma, Junzhi Ning, Yunheng Li, Ying Chen, Xinzhe Luo, Pengcheng Chen, Xin Gao, Ming Hu, Huihui Xu, Xin Wang, Shujian Gao, Dingkang Yang, Zhongying Deng, Jin Ye, Lihao Liu, Junjun He, Ningsheng Xu
cs.AI
Resumen
La Evaluación de la Calidad de Imágenes Médicas (IQA, por sus siglas en inglés) sirve como la primera barrera de seguridad para la inteligencia artificial clínica, pero los enfoques existentes siguen limitados por métricas escalares basadas en puntuaciones y no logran reflejar el proceso de razonamiento descriptivo y similar al humano que es central en la evaluación experta. Para abordar esta brecha, presentamos MedQ-Bench, un punto de referencia integral que establece un paradigma de percepción-razonamiento para la evaluación de la calidad de imágenes médicas basada en lenguaje mediante Modelos de Lenguaje Multimodales de Gran Escala (MLLMs). MedQ-Bench define dos tareas complementarias: (1) MedQ-Perception, que explora la capacidad perceptiva de bajo nivel a través de preguntas curadas por humanos sobre atributos visuales fundamentales; y (2) MedQ-Reasoning, que abarca tareas de razonamiento sin referencia y de comparación, alineando la evaluación del modelo con el razonamiento similar al humano sobre la calidad de la imagen. El punto de referencia abarca cinco modalidades de imagen y más de cuarenta atributos de calidad, totalizando 2,600 consultas perceptivas y 708 evaluaciones de razonamiento, cubriendo diversas fuentes de imágenes, incluyendo adquisiciones clínicas auténticas, imágenes con degradaciones simuladas mediante reconstrucciones basadas en física e imágenes generadas por IA. Para evaluar la capacidad de razonamiento, proponemos un protocolo de evaluación multidimensional que analiza las salidas del modelo a lo largo de cuatro ejes complementarios. Además, realizamos una validación rigurosa de alineación humano-IA comparando el juicio basado en LLM con el de radiólogos. Nuestra evaluación de 14 MLLMs de última generación demuestra que los modelos exhiben habilidades perceptivas y de razonamiento preliminares pero inestables, con una precisión insuficiente para un uso clínico confiable. Estos hallazgos resaltan la necesidad de una optimización dirigida de los MLLMs en la IQA médica. Esperamos que MedQ-Bench catalice una mayor exploración y desbloquee el potencial no aprovechado de los MLLMs para la evaluación de la calidad de imágenes médicas.
English
Medical Image Quality Assessment (IQA) serves as the first-mile safety gate
for clinical AI, yet existing approaches remain constrained by scalar,
score-based metrics and fail to reflect the descriptive, human-like reasoning
process central to expert evaluation. To address this gap, we introduce
MedQ-Bench, a comprehensive benchmark that establishes a perception-reasoning
paradigm for language-based evaluation of medical image quality with
Multi-modal Large Language Models (MLLMs). MedQ-Bench defines two complementary
tasks: (1) MedQ-Perception, which probes low-level perceptual capability via
human-curated questions on fundamental visual attributes; and (2)
MedQ-Reasoning, encompassing both no-reference and comparison reasoning tasks,
aligning model evaluation with human-like reasoning on image quality. The
benchmark spans five imaging modalities and over forty quality attributes,
totaling 2,600 perceptual queries and 708 reasoning assessments, covering
diverse image sources including authentic clinical acquisitions, images with
simulated degradations via physics-based reconstructions, and AI-generated
images. To evaluate reasoning ability, we propose a multi-dimensional judging
protocol that assesses model outputs along four complementary axes. We further
conduct rigorous human-AI alignment validation by comparing LLM-based judgement
with radiologists. Our evaluation of 14 state-of-the-art MLLMs demonstrates
that models exhibit preliminary but unstable perceptual and reasoning skills,
with insufficient accuracy for reliable clinical use. These findings highlight
the need for targeted optimization of MLLMs in medical IQA. We hope that
MedQ-Bench will catalyze further exploration and unlock the untapped potential
of MLLMs for medical image quality evaluation.