NOVA: Бенчмарк для локализации аномалий и клинического анализа в МРТ головного мозга

Аннотация

Во многих реальных приложениях развернутые модели сталкиваются с входными данными, которые отличаются от данных, наблюдаемых во время обучения. Обнаружение данных, выходящих за пределы распределения (out-of-distribution), определяет, происходит ли входной сигнал из неизвестного распределения, в то время как распознавание в открытом мире (open-world recognition) помечает такие данные, чтобы обеспечить устойчивость системы по мере появления новых, ранее неизвестных категорий, которые необходимо учитывать без переобучения. Фундаментальные и мультимодальные модели предварительно обучаются на больших и разнообразных наборах данных с ожиданием широкого обобщения в различных областях, включая медицинскую визуализацию. Однако тестирование этих моделей на наборах данных с небольшим количеством типичных выбросов неявно сводит оценку к задаче с закрытым набором, скрывая ошибки на редких или действительно новых условиях, встречающихся в клинической практике. Мы представляем NOVA — сложный, ориентированный на реальную жизнь бенчмарк для оценки, состоящий из 900 симуляций МРТ-сканирований мозга, охватывающих 281 редкую патологию и различные протоколы получения данных. Каждый случай включает подробные клинические описания и двойные слепые экспертные аннотации с ограничивающими рамками. Вместе они позволяют проводить совместную оценку локализации аномалий, визуального описания и диагностического анализа. Поскольку NOVA никогда не используется для обучения, он служит экстремальным стресс-тестом для обобщения на данных, выходящих за пределы распределения: модели должны преодолеть разрыв как в визуальном представлении данных, так и в семантическом пространстве. Базовые результаты с ведущими мультимодальными моделями (GPT-4o, Gemini 2.0 Flash и Qwen2.5-VL-72B) показывают значительное снижение производительности по всем задачам, что подтверждает NOVA как строгий тестовый стенд для разработки моделей, способных обнаруживать, локализовать и анализировать действительно неизвестные аномалии.

English

In many real-world applications, deployed models encounter inputs that differ from the data seen during training. Out-of-distribution detection identifies whether an input stems from an unseen distribution, while open-world recognition flags such inputs to ensure the system remains robust as ever-emerging, previously unknown categories appear and must be addressed without retraining. Foundation and vision-language models are pre-trained on large and diverse datasets with the expectation of broad generalization across domains, including medical imaging. However, benchmarking these models on test sets with only a few common outlier types silently collapses the evaluation back to a closed-set problem, masking failures on rare or truly novel conditions encountered in clinical use. We therefore present NOVA, a challenging, real-life evaluation-only benchmark of sim900 brain MRI scans that span 281 rare pathologies and heterogeneous acquisition protocols. Each case includes rich clinical narratives and double-blinded expert bounding-box annotations. Together, these enable joint assessment of anomaly localisation, visual captioning, and diagnostic reasoning. Because NOVA is never used for training, it serves as an extreme stress-test of out-of-distribution generalisation: models must bridge a distribution gap both in sample appearance and in semantic space. Baseline results with leading vision-language models (GPT-4o, Gemini 2.0 Flash, and Qwen2.5-VL-72B) reveal substantial performance drops across all tasks, establishing NOVA as a rigorous testbed for advancing models that can detect, localize, and reason about truly unknown anomalies.

NOVA: Бенчмарк для локализации аномалий и клинического анализа в МРТ головного мозга

NOVA: A Benchmark for Anomaly Localization and Clinical Reasoning in Brain MRI

Аннотация

Support