SpineBench: Um Benchmark Clinicamente Relevante e Nível-Consciente Alimentado pelo Corpus SpineMed-450k
SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k Corpus
October 3, 2025
Autores: Ming Zhao, Wenhui Dong, Yang Zhang, Xiang Zheng, Zhonghao Zhang, Zian Zhou, Yunzhi Guan, Liukun Xu, Wei Peng, Zhaoyang Gong, Zhicheng Zhang, Dachuan Li, Xiaosheng Ma, Yuli Ma, Jianing Ni, Changjiang Jiang, Lixia Tian, Qixin Chen, Kaishun Xia, Pingping Liu, Tongshun Zhang, Zhiqiang Liu, Zhongan Bi, Chenyang Si, Tiansheng Sun, Caifeng Shan
cs.AI
Resumo
Distúrbios da coluna vertebral afetam 619 milhões de pessoas globalmente e são uma das principais causas de incapacidade, ainda assim o diagnóstico assistido por IA permanece limitado pela falta de conjuntos de dados multimodais e conscientes do nível vertebral. A tomada de decisão clínica para distúrbios da coluna requer raciocínio sofisticado através de raios-X, tomografias computadorizadas (CT) e ressonâncias magnéticas (MRI) em níveis vertebrais específicos. No entanto, o progresso tem sido limitado pela ausência de dados de instrução rastreáveis e clinicamente fundamentados, além de benchmarks padronizados e específicos para a coluna. Para resolver isso, apresentamos o SpineMed, um ecossistema co-desenvolvido com cirurgiões de coluna em atividade. Ele inclui o SpineMed-450k, o primeiro conjunto de dados em grande escala explicitamente projetado para raciocínio em nível vertebral através de modalidades de imagem, com mais de 450.000 instâncias de instrução, e o SpineBench, uma estrutura de avaliação clinicamente fundamentada. O SpineMed-450k é curado a partir de diversas fontes, incluindo livros didáticos, diretrizes, conjuntos de dados abertos e aproximadamente 1.000 casos hospitalares anonimizados, utilizando um pipeline com clínicos no processo e um método de geração em duas etapas com modelos de linguagem de grande escala (LLM) (rascunho e revisão) para garantir dados de alta qualidade e rastreáveis para perguntas e respostas, consultas multiturno e geração de relatórios. O SpineBench avalia modelos em eixos clinicamente relevantes, incluindo identificação de nível, avaliação de patologias e planejamento cirúrgico. Nossa avaliação abrangente de vários modelos avançados recentes de visão e linguagem de grande escala (LVLMs) no SpineBench revela fraquezas sistemáticas no raciocínio detalhado e específico por nível. Em contraste, nosso modelo ajustado no SpineMed-450k demonstra melhorias consistentes e significativas em todas as tarefas. Avaliações clínicas confirmam a clareza diagnóstica e a utilidade prática das saídas do nosso modelo.
English
Spine disorders affect 619 million people globally and are a leading cause of
disability, yet AI-assisted diagnosis remains limited by the lack of
level-aware, multimodal datasets. Clinical decision-making for spine disorders
requires sophisticated reasoning across X-ray, CT, and MRI at specific
vertebral levels. However, progress has been constrained by the absence of
traceable, clinically-grounded instruction data and standardized,
spine-specific benchmarks. To address this, we introduce SpineMed, an ecosystem
co-designed with practicing spine surgeons. It features SpineMed-450k, the
first large-scale dataset explicitly designed for vertebral-level reasoning
across imaging modalities with over 450,000 instruction instances, and
SpineBench, a clinically-grounded evaluation framework. SpineMed-450k is
curated from diverse sources, including textbooks, guidelines, open datasets,
and ~1,000 de-identified hospital cases, using a clinician-in-the-loop pipeline
with a two-stage LLM generation method (draft and revision) to ensure
high-quality, traceable data for question-answering, multi-turn consultations,
and report generation. SpineBench evaluates models on clinically salient axes,
including level identification, pathology assessment, and surgical planning.
Our comprehensive evaluation of several recently advanced large vision-language
models (LVLMs) on SpineBench reveals systematic weaknesses in fine-grained,
level-specific reasoning. In contrast, our model fine-tuned on SpineMed-450k
demonstrates consistent and significant improvements across all tasks.
Clinician assessments confirm the diagnostic clarity and practical utility of
our model's outputs.