MedQ-Bench: Avaliação e Exploração das Habilidades de Avaliação da Qualidade de Imagens Médicas em MLLMs
MedQ-Bench: Evaluating and Exploring Medical Image Quality Assessment Abilities in MLLMs
October 2, 2025
Autores: Jiyao Liu, Jinjie Wei, Wanying Qu, Chenglong Ma, Junzhi Ning, Yunheng Li, Ying Chen, Xinzhe Luo, Pengcheng Chen, Xin Gao, Ming Hu, Huihui Xu, Xin Wang, Shujian Gao, Dingkang Yang, Zhongying Deng, Jin Ye, Lihao Liu, Junjun He, Ningsheng Xu
cs.AI
Resumo
A Avaliação da Qualidade de Imagens Médicas (IQA, na sigla em inglês) serve como o primeiro portão de segurança para a IA clínica, mas as abordagens existentes permanecem limitadas por métricas escalares baseadas em pontuações e falham em refletir o processo descritivo de raciocínio semelhante ao humano, central para a avaliação de especialistas. Para abordar essa lacuna, introduzimos o MedQ-Bench, um benchmark abrangente que estabelece um paradigma de percepção-raciocínio para a avaliação da qualidade de imagens médicas baseada em linguagem com Modelos de Linguagem Multimodais de Grande Escala (MLLMs). O MedQ-Bench define duas tarefas complementares: (1) MedQ-Perception, que investiga a capacidade perceptiva de baixo nível por meio de perguntas curadas por humanos sobre atributos visuais fundamentais; e (2) MedQ-Reasoning, abrangendo tarefas de raciocínio sem referência e de comparação, alinhando a avaliação do modelo com o raciocínio semelhante ao humano sobre a qualidade da imagem. O benchmark abrange cinco modalidades de imagem e mais de quarenta atributos de qualidade, totalizando 2.600 consultas perceptivas e 708 avaliações de raciocínio, cobrindo diversas fontes de imagem, incluindo aquisições clínicas autênticas, imagens com degradações simuladas por meio de reconstruções baseadas em física e imagens geradas por IA. Para avaliar a capacidade de raciocínio, propomos um protocolo de julgamento multidimensional que avalia as saídas do modelo ao longo de quatro eixos complementares. Além disso, realizamos uma validação rigorosa de alinhamento humano-IA comparando o julgamento baseado em LLM com o de radiologistas. Nossa avaliação de 14 MLLMs state-of-the-art demonstra que os modelos exibem habilidades perceptivas e de raciocínio preliminares, mas instáveis, com precisão insuficiente para uso clínico confiável. Esses achados destacam a necessidade de otimização direcionada de MLLMs na IQA médica. Esperamos que o MedQ-Bench catalise novas explorações e libere o potencial ainda não explorado dos MLLMs para a avaliação da qualidade de imagens médicas.
English
Medical Image Quality Assessment (IQA) serves as the first-mile safety gate
for clinical AI, yet existing approaches remain constrained by scalar,
score-based metrics and fail to reflect the descriptive, human-like reasoning
process central to expert evaluation. To address this gap, we introduce
MedQ-Bench, a comprehensive benchmark that establishes a perception-reasoning
paradigm for language-based evaluation of medical image quality with
Multi-modal Large Language Models (MLLMs). MedQ-Bench defines two complementary
tasks: (1) MedQ-Perception, which probes low-level perceptual capability via
human-curated questions on fundamental visual attributes; and (2)
MedQ-Reasoning, encompassing both no-reference and comparison reasoning tasks,
aligning model evaluation with human-like reasoning on image quality. The
benchmark spans five imaging modalities and over forty quality attributes,
totaling 2,600 perceptual queries and 708 reasoning assessments, covering
diverse image sources including authentic clinical acquisitions, images with
simulated degradations via physics-based reconstructions, and AI-generated
images. To evaluate reasoning ability, we propose a multi-dimensional judging
protocol that assesses model outputs along four complementary axes. We further
conduct rigorous human-AI alignment validation by comparing LLM-based judgement
with radiologists. Our evaluation of 14 state-of-the-art MLLMs demonstrates
that models exhibit preliminary but unstable perceptual and reasoning skills,
with insufficient accuracy for reliable clinical use. These findings highlight
the need for targeted optimization of MLLMs in medical IQA. We hope that
MedQ-Bench will catalyze further exploration and unlock the untapped potential
of MLLMs for medical image quality evaluation.