NOVA: Um Benchmark para Localização de Anomalias e Raciocínio Clínico em Ressonância Magnética Cerebral
NOVA: A Benchmark for Anomaly Localization and Clinical Reasoning in Brain MRI
May 20, 2025
Autores: Cosmin I. Bercea, Jun Li, Philipp Raffler, Evamaria O. Riedel, Lena Schmitzer, Angela Kurz, Felix Bitzer, Paula Roßmüller, Julian Canisius, Mirjam L. Beyrle, Che Liu, Wenjia Bai, Bernhard Kainz, Julia A. Schnabel, Benedikt Wiestler
cs.AI
Resumo
Em muitas aplicações do mundo real, modelos implantados encontram entradas que diferem dos dados vistos durante o treinamento. A detecção fora da distribuição identifica se uma entrada provém de uma distribuição não vista anteriormente, enquanto o reconhecimento em mundo aberto sinaliza tais entradas para garantir que o sistema permaneça robusto à medida que categorias previamente desconhecidas e emergentes aparecem e precisam ser tratadas sem retreinamento. Modelos de base e modelos de visão e linguagem são pré-treinados em grandes e diversos conjuntos de dados com a expectativa de generalização ampla entre domínios, incluindo imagens médicas. No entanto, ao avaliar esses modelos em conjuntos de teste com apenas alguns tipos comuns de outliers, a avaliação colapsa silenciosamente de volta para um problema de conjunto fechado, mascarando falhas em condições raras ou verdadeiramente novas encontradas no uso clínico.
Apresentamos, portanto, o NOVA, um benchmark desafiador e exclusivo para avaliação de 900 exames de ressonância magnética cerebral que abrangem 281 patologias raras e protocolos de aquisição heterogêneos. Cada caso inclui narrativas clínicas detalhadas e anotações de caixas delimitadoras feitas por especialistas em duplo-cego. Juntos, esses elementos permitem uma avaliação conjunta de localização de anomalias, geração de legendas visuais e raciocínio diagnóstico. Como o NOVA nunca é usado para treinamento, ele serve como um teste de estresse extremo para a generalização fora da distribuição: os modelos devem superar uma lacuna de distribuição tanto na aparência das amostras quanto no espaço semântico. Resultados de linha de base com modelos líderes de visão e linguagem (GPT-4o, Gemini 2.0 Flash e Qwen2.5-VL-72B) revelam quedas substanciais de desempenho em todas as tarefas, estabelecendo o NOVA como um ambiente de teste rigoroso para avançar modelos capazes de detectar, localizar e raciocinar sobre anomalias verdadeiramente desconhecidas.
English
In many real-world applications, deployed models encounter inputs that differ
from the data seen during training. Out-of-distribution detection identifies
whether an input stems from an unseen distribution, while open-world
recognition flags such inputs to ensure the system remains robust as
ever-emerging, previously unknown categories appear and must be addressed
without retraining. Foundation and vision-language models are pre-trained on
large and diverse datasets with the expectation of broad generalization across
domains, including medical imaging. However, benchmarking these models on test
sets with only a few common outlier types silently collapses the evaluation
back to a closed-set problem, masking failures on rare or truly novel
conditions encountered in clinical use.
We therefore present NOVA, a challenging, real-life evaluation-only
benchmark of sim900 brain MRI scans that span 281 rare pathologies and
heterogeneous acquisition protocols. Each case includes rich clinical
narratives and double-blinded expert bounding-box annotations. Together, these
enable joint assessment of anomaly localisation, visual captioning, and
diagnostic reasoning. Because NOVA is never used for training, it serves as an
extreme stress-test of out-of-distribution generalisation: models must bridge
a distribution gap both in sample appearance and in semantic space. Baseline
results with leading vision-language models (GPT-4o, Gemini 2.0 Flash, and
Qwen2.5-VL-72B) reveal substantial performance drops across all tasks,
establishing NOVA as a rigorous testbed for advancing models that can detect,
localize, and reason about truly unknown anomalies.