NOVA: Un Benchmark per la Localizzazione delle Anomalie e il Ragionamento Clinico nelle Risonanze Magnetiche Cerebrali
NOVA: A Benchmark for Anomaly Localization and Clinical Reasoning in Brain MRI
May 20, 2025
Autori: Cosmin I. Bercea, Jun Li, Philipp Raffler, Evamaria O. Riedel, Lena Schmitzer, Angela Kurz, Felix Bitzer, Paula Roßmüller, Julian Canisius, Mirjam L. Beyrle, Che Liu, Wenjia Bai, Bernhard Kainz, Julia A. Schnabel, Benedikt Wiestler
cs.AI
Abstract
In molte applicazioni del mondo reale, i modelli implementati si trovano ad affrontare input che differiscono dai dati visti durante l'addestramento. Il rilevamento fuori distribuzione (out-of-distribution detection) identifica se un input proviene da una distribuzione non vista in precedenza, mentre il riconoscimento in mondo aperto (open-world recognition) segnala tali input per garantire che il sistema rimanga robusto man mano che emergono categorie precedentemente sconosciute che devono essere gestite senza necessità di riaddestramento. I modelli di base (foundation models) e i modelli visione-linguaggio (vision-language models) vengono pre-addestrati su dataset ampi e diversificati con l'aspettativa di una generalizzazione ampia tra domini, inclusa l'imaging medico. Tuttavia, valutare questi modelli su set di test con solo pochi tipi comuni di outlier riduce silenziosamente la valutazione a un problema a insieme chiuso (closed-set problem), nascondendo i fallimenti su condizioni rare o veramente nuove incontrate nell'uso clinico.
Presentiamo quindi NOVA, un benchmark di valutazione impegnativo e realistico basato su 900 scansioni MRI cerebrali che coprono 281 patologie rare e protocolli di acquisizione eterogenei. Ogni caso include narrazioni cliniche dettagliate e annotazioni con bounding box in doppio cieco da parte di esperti. Insieme, questi elementi consentono una valutazione congiunta della localizzazione delle anomalie, della descrizione visiva (visual captioning) e del ragionamento diagnostico. Poiché NOVA non viene mai utilizzato per l'addestramento, funziona come un test estremo per la generalizzazione fuori distribuzione: i modelli devono colmare un divario sia nell'aspetto dei campioni che nello spazio semantico. I risultati di base con i principali modelli visione-linguaggio (GPT-4o, Gemini 2.0 Flash e Qwen2.5-VL-72B) rivelano cali significativi delle prestazioni in tutti i compiti, stabilendo NOVA come un banco di prova rigoroso per avanzare modelli in grado di rilevare, localizzare e ragionare su anomalie veramente sconosciute.
English
In many real-world applications, deployed models encounter inputs that differ
from the data seen during training. Out-of-distribution detection identifies
whether an input stems from an unseen distribution, while open-world
recognition flags such inputs to ensure the system remains robust as
ever-emerging, previously unknown categories appear and must be addressed
without retraining. Foundation and vision-language models are pre-trained on
large and diverse datasets with the expectation of broad generalization across
domains, including medical imaging. However, benchmarking these models on test
sets with only a few common outlier types silently collapses the evaluation
back to a closed-set problem, masking failures on rare or truly novel
conditions encountered in clinical use.
We therefore present NOVA, a challenging, real-life evaluation-only
benchmark of sim900 brain MRI scans that span 281 rare pathologies and
heterogeneous acquisition protocols. Each case includes rich clinical
narratives and double-blinded expert bounding-box annotations. Together, these
enable joint assessment of anomaly localisation, visual captioning, and
diagnostic reasoning. Because NOVA is never used for training, it serves as an
extreme stress-test of out-of-distribution generalisation: models must bridge
a distribution gap both in sample appearance and in semantic space. Baseline
results with leading vision-language models (GPT-4o, Gemini 2.0 Flash, and
Qwen2.5-VL-72B) reveal substantial performance drops across all tasks,
establishing NOVA as a rigorous testbed for advancing models that can detect,
localize, and reason about truly unknown anomalies.