NOVA: Ein Benchmark für die Lokalisierung von Anomalien und klinisches Denken in der Gehirn-MRT
NOVA: A Benchmark for Anomaly Localization and Clinical Reasoning in Brain MRI
May 20, 2025
Autoren: Cosmin I. Bercea, Jun Li, Philipp Raffler, Evamaria O. Riedel, Lena Schmitzer, Angela Kurz, Felix Bitzer, Paula Roßmüller, Julian Canisius, Mirjam L. Beyrle, Che Liu, Wenjia Bai, Bernhard Kainz, Julia A. Schnabel, Benedikt Wiestler
cs.AI
Zusammenfassung
In vielen realen Anwendungen stoßen eingesetzte Modelle auf Eingaben, die sich von den während des Trainings gesehenen Daten unterscheiden. Die Erkennung von Out-of-Distribution-Daten identifiziert, ob eine Eingabe aus einer unbekannten Verteilung stammt, während die Open-World-Erkennung solche Eingaben markiert, um sicherzustellen, dass das System robust bleibt, wenn ständig neue, bisher unbekannte Kategorien auftreten und ohne erneutes Training behandelt werden müssen. Foundation- und Vision-Language-Modelle werden auf großen und vielfältigen Datensätzen vortrainiert, mit der Erwartung einer breiten Generalisierung über verschiedene Domänen hinweg, einschließlich der medizinischen Bildgebung. Die Bewertung dieser Modelle anhand von Testsets mit nur wenigen gängigen Ausreißertypen reduziert die Evaluation jedoch stillschweigend auf ein Closed-Set-Problem und verschleiert Fehler bei seltenen oder wirklich neuartigen Bedingungen, die in der klinischen Praxis auftreten.
Daher stellen wir NOVA vor, einen anspruchsvollen, realitätsnahen Evaluations-Benchmark mit 900 simulierten Gehirn-MRT-Scans, die 281 seltene Pathologien und heterogene Aufnahmeprotokolle abdecken. Jeder Fall umfasst umfangreiche klinische Beschreibungen und doppelblinde, von Experten erstellte Bounding-Box-Annotationen. Zusammen ermöglichen sie eine gemeinsame Bewertung der Anomalielokalisierung, visuellen Beschreibung und diagnostischen Argumentation. Da NOVA niemals für das Training verwendet wird, dient es als extremer Stresstest für die Out-of-Distribution-Generalisierung: Modelle müssen eine Verteilungslücke sowohl im Erscheinungsbild der Proben als auch im semantischen Raum überbrücken. Baseline-Ergebnisse mit führenden Vision-Language-Modellen (GPT-4o, Gemini 2.0 Flash und Qwen2.5-VL-72B) zeigen erhebliche Leistungseinbußen bei allen Aufgaben, was NOVA als rigorose Testplattform für die Weiterentwicklung von Modellen etabliert, die wirklich unbekannte Anomalien erkennen, lokalisieren und interpretieren können.
English
In many real-world applications, deployed models encounter inputs that differ
from the data seen during training. Out-of-distribution detection identifies
whether an input stems from an unseen distribution, while open-world
recognition flags such inputs to ensure the system remains robust as
ever-emerging, previously unknown categories appear and must be addressed
without retraining. Foundation and vision-language models are pre-trained on
large and diverse datasets with the expectation of broad generalization across
domains, including medical imaging. However, benchmarking these models on test
sets with only a few common outlier types silently collapses the evaluation
back to a closed-set problem, masking failures on rare or truly novel
conditions encountered in clinical use.
We therefore present NOVA, a challenging, real-life evaluation-only
benchmark of sim900 brain MRI scans that span 281 rare pathologies and
heterogeneous acquisition protocols. Each case includes rich clinical
narratives and double-blinded expert bounding-box annotations. Together, these
enable joint assessment of anomaly localisation, visual captioning, and
diagnostic reasoning. Because NOVA is never used for training, it serves as an
extreme stress-test of out-of-distribution generalisation: models must bridge
a distribution gap both in sample appearance and in semantic space. Baseline
results with leading vision-language models (GPT-4o, Gemini 2.0 Flash, and
Qwen2.5-VL-72B) reveal substantial performance drops across all tasks,
establishing NOVA as a rigorous testbed for advancing models that can detect,
localize, and reason about truly unknown anomalies.Summary
AI-Generated Summary