NOVA: Un punto de referencia para la localización de anomalías y el razonamiento clínico en resonancias magnéticas cerebrales
NOVA: A Benchmark for Anomaly Localization and Clinical Reasoning in Brain MRI
May 20, 2025
Autores: Cosmin I. Bercea, Jun Li, Philipp Raffler, Evamaria O. Riedel, Lena Schmitzer, Angela Kurz, Felix Bitzer, Paula Roßmüller, Julian Canisius, Mirjam L. Beyrle, Che Liu, Wenjia Bai, Bernhard Kainz, Julia A. Schnabel, Benedikt Wiestler
cs.AI
Resumen
En muchas aplicaciones del mundo real, los modelos implementados se encuentran con entradas que difieren de los datos vistos durante el entrenamiento. La detección fuera de distribución identifica si una entrada proviene de una distribución no vista, mientras que el reconocimiento en mundo abierto marca dichas entradas para garantizar que el sistema permanezca robusto a medida que surgen categorías previamente desconocidas y deben abordarse sin necesidad de reentrenamiento. Los modelos de base y los modelos de visión-lenguaje se preentrenan en conjuntos de datos grandes y diversos con la expectativa de una generalización amplia en múltiples dominios, incluyendo imágenes médicas. Sin embargo, evaluar estos modelos en conjuntos de prueba con solo unos pocos tipos comunes de valores atípicos reduce silenciosamente la evaluación a un problema de conjunto cerrado, ocultando fallos en condiciones raras o verdaderamente novedosas encontradas en el uso clínico.
Por lo tanto, presentamos NOVA, un punto de referencia de evaluación desafiante y basado en la vida real, compuesto por 900 escaneos de resonancia magnética cerebral que abarcan 281 patologías raras y protocolos de adquisición heterogéneos. Cada caso incluye narrativas clínicas detalladas y anotaciones de cuadros delimitadores realizadas por expertos bajo doble ciego. Juntos, estos elementos permiten una evaluación conjunta de la localización de anomalías, la generación de descripciones visuales y el razonamiento diagnóstico. Dado que NOVA nunca se utiliza para el entrenamiento, sirve como una prueba de estrés extrema de la generalización fuera de distribución: los modelos deben superar una brecha de distribución tanto en la apariencia de las muestras como en el espacio semántico. Los resultados de referencia con modelos líderes de visión-lenguaje (GPT-4o, Gemini 2.0 Flash y Qwen2.5-VL-72B) revelan caídas sustanciales en el rendimiento en todas las tareas, estableciendo a NOVA como un banco de pruebas riguroso para avanzar en modelos capaces de detectar, localizar y razonar sobre anomalías verdaderamente desconocidas.
English
In many real-world applications, deployed models encounter inputs that differ
from the data seen during training. Out-of-distribution detection identifies
whether an input stems from an unseen distribution, while open-world
recognition flags such inputs to ensure the system remains robust as
ever-emerging, previously unknown categories appear and must be addressed
without retraining. Foundation and vision-language models are pre-trained on
large and diverse datasets with the expectation of broad generalization across
domains, including medical imaging. However, benchmarking these models on test
sets with only a few common outlier types silently collapses the evaluation
back to a closed-set problem, masking failures on rare or truly novel
conditions encountered in clinical use.
We therefore present NOVA, a challenging, real-life evaluation-only
benchmark of sim900 brain MRI scans that span 281 rare pathologies and
heterogeneous acquisition protocols. Each case includes rich clinical
narratives and double-blinded expert bounding-box annotations. Together, these
enable joint assessment of anomaly localisation, visual captioning, and
diagnostic reasoning. Because NOVA is never used for training, it serves as an
extreme stress-test of out-of-distribution generalisation: models must bridge
a distribution gap both in sample appearance and in semantic space. Baseline
results with leading vision-language models (GPT-4o, Gemini 2.0 Flash, and
Qwen2.5-VL-72B) reveal substantial performance drops across all tasks,
establishing NOVA as a rigorous testbed for advancing models that can detect,
localize, and reason about truly unknown anomalies.Summary
AI-Generated Summary