NOVA: Бенчмарк для локализации аномалий и клинического анализа в МРТ головного мозга
NOVA: A Benchmark for Anomaly Localization and Clinical Reasoning in Brain MRI
May 20, 2025
Авторы: Cosmin I. Bercea, Jun Li, Philipp Raffler, Evamaria O. Riedel, Lena Schmitzer, Angela Kurz, Felix Bitzer, Paula Roßmüller, Julian Canisius, Mirjam L. Beyrle, Che Liu, Wenjia Bai, Bernhard Kainz, Julia A. Schnabel, Benedikt Wiestler
cs.AI
Аннотация
Во многих реальных приложениях развернутые модели сталкиваются с входными данными, которые отличаются от данных, наблюдаемых во время обучения. Обнаружение данных, выходящих за пределы распределения (out-of-distribution), определяет, происходит ли входной сигнал из неизвестного распределения, в то время как распознавание в открытом мире (open-world recognition) помечает такие данные, чтобы обеспечить устойчивость системы по мере появления новых, ранее неизвестных категорий, которые необходимо учитывать без переобучения. Фундаментальные и мультимодальные модели предварительно обучаются на больших и разнообразных наборах данных с ожиданием широкого обобщения в различных областях, включая медицинскую визуализацию. Однако тестирование этих моделей на наборах данных с небольшим количеством типичных выбросов неявно сводит оценку к задаче с закрытым набором, скрывая ошибки на редких или действительно новых условиях, встречающихся в клинической практике.
Мы представляем NOVA — сложный, ориентированный на реальную жизнь бенчмарк для оценки, состоящий из 900 симуляций МРТ-сканирований мозга, охватывающих 281 редкую патологию и различные протоколы получения данных. Каждый случай включает подробные клинические описания и двойные слепые экспертные аннотации с ограничивающими рамками. Вместе они позволяют проводить совместную оценку локализации аномалий, визуального описания и диагностического анализа. Поскольку NOVA никогда не используется для обучения, он служит экстремальным стресс-тестом для обобщения на данных, выходящих за пределы распределения: модели должны преодолеть разрыв как в визуальном представлении данных, так и в семантическом пространстве. Базовые результаты с ведущими мультимодальными моделями (GPT-4o, Gemini 2.0 Flash и Qwen2.5-VL-72B) показывают значительное снижение производительности по всем задачам, что подтверждает NOVA как строгий тестовый стенд для разработки моделей, способных обнаруживать, локализовать и анализировать действительно неизвестные аномалии.
English
In many real-world applications, deployed models encounter inputs that differ
from the data seen during training. Out-of-distribution detection identifies
whether an input stems from an unseen distribution, while open-world
recognition flags such inputs to ensure the system remains robust as
ever-emerging, previously unknown categories appear and must be addressed
without retraining. Foundation and vision-language models are pre-trained on
large and diverse datasets with the expectation of broad generalization across
domains, including medical imaging. However, benchmarking these models on test
sets with only a few common outlier types silently collapses the evaluation
back to a closed-set problem, masking failures on rare or truly novel
conditions encountered in clinical use.
We therefore present NOVA, a challenging, real-life evaluation-only
benchmark of sim900 brain MRI scans that span 281 rare pathologies and
heterogeneous acquisition protocols. Each case includes rich clinical
narratives and double-blinded expert bounding-box annotations. Together, these
enable joint assessment of anomaly localisation, visual captioning, and
diagnostic reasoning. Because NOVA is never used for training, it serves as an
extreme stress-test of out-of-distribution generalisation: models must bridge
a distribution gap both in sample appearance and in semantic space. Baseline
results with leading vision-language models (GPT-4o, Gemini 2.0 Flash, and
Qwen2.5-VL-72B) reveal substantial performance drops across all tasks,
establishing NOVA as a rigorous testbed for advancing models that can detect,
localize, and reason about truly unknown anomalies.Summary
AI-Generated Summary