NOVA : Un référentiel pour la localisation des anomalies et le raisonnement clinique en IRM cérébrale
NOVA: A Benchmark for Anomaly Localization and Clinical Reasoning in Brain MRI
May 20, 2025
Auteurs: Cosmin I. Bercea, Jun Li, Philipp Raffler, Evamaria O. Riedel, Lena Schmitzer, Angela Kurz, Felix Bitzer, Paula Roßmüller, Julian Canisius, Mirjam L. Beyrle, Che Liu, Wenjia Bai, Bernhard Kainz, Julia A. Schnabel, Benedikt Wiestler
cs.AI
Résumé
Dans de nombreuses applications réelles, les modèles déployés rencontrent des entrées qui diffèrent des données observées pendant l'entraînement. La détection hors distribution identifie si une entrée provient d'une distribution non vue auparavant, tandis que la reconnaissance en monde ouvert signale de telles entrées pour garantir que le système reste robuste face à l'apparition continue de catégories précédemment inconnues, qui doivent être traitées sans nécessiter de réentraînement. Les modèles de base et les modèles vision-langage sont pré-entraînés sur des ensembles de données vastes et diversifiés avec l'attente d'une généralisation étendue à travers divers domaines, y compris l'imagerie médicale. Cependant, l'évaluation de ces modèles sur des ensembles de test ne contenant que quelques types d'outliers courants réduit silencieusement l'évaluation à un problème en ensemble fermé, masquant les échecs sur des conditions rares ou véritablement nouvelles rencontrées en usage clinique.
Nous présentons donc NOVA, un benchmark d'évaluation uniquement, exigeant et basé sur des cas réels, comprenant 900 scans IRM cérébraux qui couvrent 281 pathologies rares et des protocoles d'acquisition hétérogènes. Chaque cas inclut des récits cliniques détaillés et des annotations expertes en double aveugle sous forme de boîtes englobantes. Ensemble, ces éléments permettent une évaluation conjointe de la localisation des anomalies, de la génération de descriptions visuelles et du raisonnement diagnostique. Comme NOVA n'est jamais utilisé pour l'entraînement, il sert de test de stress extrême pour la généralisation hors distribution : les modèles doivent combler un écart de distribution à la fois dans l'apparence des échantillons et dans l'espace sémantique. Les résultats de référence avec les modèles vision-langage leaders (GPT-4o, Gemini 2.0 Flash et Qwen2.5-VL-72B) révèlent des baisses de performance substantielles sur toutes les tâches, établissant NOVA comme un banc d'essai rigoureux pour faire progresser les modèles capables de détecter, localiser et raisonner sur des anomalies véritablement inconnues.
English
In many real-world applications, deployed models encounter inputs that differ
from the data seen during training. Out-of-distribution detection identifies
whether an input stems from an unseen distribution, while open-world
recognition flags such inputs to ensure the system remains robust as
ever-emerging, previously unknown categories appear and must be addressed
without retraining. Foundation and vision-language models are pre-trained on
large and diverse datasets with the expectation of broad generalization across
domains, including medical imaging. However, benchmarking these models on test
sets with only a few common outlier types silently collapses the evaluation
back to a closed-set problem, masking failures on rare or truly novel
conditions encountered in clinical use.
We therefore present NOVA, a challenging, real-life evaluation-only
benchmark of sim900 brain MRI scans that span 281 rare pathologies and
heterogeneous acquisition protocols. Each case includes rich clinical
narratives and double-blinded expert bounding-box annotations. Together, these
enable joint assessment of anomaly localisation, visual captioning, and
diagnostic reasoning. Because NOVA is never used for training, it serves as an
extreme stress-test of out-of-distribution generalisation: models must bridge
a distribution gap both in sample appearance and in semantic space. Baseline
results with leading vision-language models (GPT-4o, Gemini 2.0 Flash, and
Qwen2.5-VL-72B) reveal substantial performance drops across all tasks,
establishing NOVA as a rigorous testbed for advancing models that can detect,
localize, and reason about truly unknown anomalies.Summary
AI-Generated Summary