NOVA: Een Benchmark voor Anomalielokalisatie en Klinisch Redeneren in Hersen-MRI
NOVA: A Benchmark for Anomaly Localization and Clinical Reasoning in Brain MRI
May 20, 2025
Auteurs: Cosmin I. Bercea, Jun Li, Philipp Raffler, Evamaria O. Riedel, Lena Schmitzer, Angela Kurz, Felix Bitzer, Paula Roßmüller, Julian Canisius, Mirjam L. Beyrle, Che Liu, Wenjia Bai, Bernhard Kainz, Julia A. Schnabel, Benedikt Wiestler
cs.AI
Samenvatting
In veel real-world toepassingen komen geïmplementeerde modellen inputs tegen die verschillen van de gegevens die tijdens de training zijn gezien. Out-of-distribution detectie identificeert of een input afkomstig is van een onbekende verdeling, terwijl open-world herkenning dergelijke inputs markeert om ervoor te zorgen dat het systeem robuust blijft naarmate steeds nieuwe, voorheen onbekende categorieën verschijnen en moeten worden aangepakt zonder hertraining. Foundation- en vision-language modellen zijn vooraf getraind op grote en diverse datasets met de verwachting van brede generalisatie over domeinen, inclusief medische beeldvorming. Het benchmarken van deze modellen op test sets met slechts enkele veelvoorkomende uitbijtertypen verkleint de evaluatie echter stilzwijgend terug tot een gesloten-set probleem, waardoor falen op zeldzame of echt nieuwe aandoeningen die in klinisch gebruik worden aangetroffen, wordt gemaskeerd.
Wij presenteren daarom NOVA, een uitdagende, real-life evaluatie-only benchmark van 900 hersen-MRI-scans die 281 zeldzame pathologieën en heterogene acquisitieprotocollen omvatten. Elk geval bevat uitgebreide klinische narratieven en dubbelblinde expertannotaties in de vorm van bounding boxes. Samen maken deze een gezamenlijke beoordeling mogelijk van anomalielokalisatie, visuele beschrijving en diagnostische redenering. Omdat NOVA nooit wordt gebruikt voor training, dient het als een extreme stresstest voor out-of-distribution generalisatie: modellen moeten een distributiekloof overbruggen zowel in het uiterlijk van de samples als in de semantische ruimte. Baseline-resultaten met toonaangevende vision-language modellen (GPT-4o, Gemini 2.0 Flash en Qwen2.5-VL-72B) laten aanzienlijke prestatieverliezen zien over alle taken, waarmee NOVA een rigoureus testbed wordt voor het bevorderen van modellen die echt onbekende anomalieën kunnen detecteren, lokaliseren en begrijpen.
English
In many real-world applications, deployed models encounter inputs that differ
from the data seen during training. Out-of-distribution detection identifies
whether an input stems from an unseen distribution, while open-world
recognition flags such inputs to ensure the system remains robust as
ever-emerging, previously unknown categories appear and must be addressed
without retraining. Foundation and vision-language models are pre-trained on
large and diverse datasets with the expectation of broad generalization across
domains, including medical imaging. However, benchmarking these models on test
sets with only a few common outlier types silently collapses the evaluation
back to a closed-set problem, masking failures on rare or truly novel
conditions encountered in clinical use.
We therefore present NOVA, a challenging, real-life evaluation-only
benchmark of sim900 brain MRI scans that span 281 rare pathologies and
heterogeneous acquisition protocols. Each case includes rich clinical
narratives and double-blinded expert bounding-box annotations. Together, these
enable joint assessment of anomaly localisation, visual captioning, and
diagnostic reasoning. Because NOVA is never used for training, it serves as an
extreme stress-test of out-of-distribution generalisation: models must bridge
a distribution gap both in sample appearance and in semantic space. Baseline
results with leading vision-language models (GPT-4o, Gemini 2.0 Flash, and
Qwen2.5-VL-72B) reveal substantial performance drops across all tasks,
establishing NOVA as a rigorous testbed for advancing models that can detect,
localize, and reason about truly unknown anomalies.