SpineBench: Un Benchmark Clinicamente Rilevante e Livello-Consapevole Alimentato dal Corpus SpineMed-450k
SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k Corpus
October 3, 2025
Autori: Ming Zhao, Wenhui Dong, Yang Zhang, Xiang Zheng, Zhonghao Zhang, Zian Zhou, Yunzhi Guan, Liukun Xu, Wei Peng, Zhaoyang Gong, Zhicheng Zhang, Dachuan Li, Xiaosheng Ma, Yuli Ma, Jianing Ni, Changjiang Jiang, Lixia Tian, Qixin Chen, Kaishun Xia, Pingping Liu, Tongshun Zhang, Zhiqiang Liu, Zhongan Bi, Chenyang Si, Tiansheng Sun, Caifeng Shan
cs.AI
Abstract
I disturbi della colonna vertebrale colpiscono 619 milioni di persone a livello globale e rappresentano una delle principali cause di disabilità, tuttavia la diagnosi assistita dall'IA rimane limitata dalla mancanza di dataset multimodali consapevoli del livello vertebrale. Il processo decisionale clinico per i disturbi della colonna vertebrale richiede un ragionamento sofisticato attraverso immagini radiografiche, TC e risonanza magnetica a specifici livelli vertebrali. Tuttavia, i progressi sono stati ostacolati dall'assenza di dati di istruzione tracciabili e clinicamente fondati, nonché da benchmark standardizzati specifici per la colonna vertebrale. Per affrontare questa problematica, presentiamo SpineMed, un ecosistema co-progettato con chirurghi della colonna vertebrale in attività. Esso include SpineMed-450k, il primo dataset su larga scala progettato esplicitamente per il ragionamento a livello vertebrale attraverso diverse modalità di imaging, con oltre 450.000 istanze di istruzione, e SpineBench, un framework di valutazione clinicamente fondato. SpineMed-450k è stato curato da fonti diverse, tra cui libri di testo, linee guida, dataset aperti e circa 1.000 casi ospedalieri anonimizzati, utilizzando una pipeline con un clinico in loop e un metodo di generazione a due fasi con LLM (bozza e revisione) per garantire dati di alta qualità e tracciabili per risposte a domande, consultazioni multi-turn e generazione di referti. SpineBench valuta i modelli su assi clinicamente rilevanti, tra cui l'identificazione del livello, la valutazione della patologia e la pianificazione chirurgica. La nostra valutazione completa di diversi modelli avanzati di visione e linguaggio (LVLM) su SpineBench rivela debolezze sistematiche nel ragionamento fine e specifico per livello. Al contrario, il nostro modello addestrato su SpineMed-450k dimostra miglioramenti consistenti e significativi in tutte le attività. Le valutazioni dei clinici confermano la chiarezza diagnostica e l'utilità pratica degli output del nostro modello.
English
Spine disorders affect 619 million people globally and are a leading cause of
disability, yet AI-assisted diagnosis remains limited by the lack of
level-aware, multimodal datasets. Clinical decision-making for spine disorders
requires sophisticated reasoning across X-ray, CT, and MRI at specific
vertebral levels. However, progress has been constrained by the absence of
traceable, clinically-grounded instruction data and standardized,
spine-specific benchmarks. To address this, we introduce SpineMed, an ecosystem
co-designed with practicing spine surgeons. It features SpineMed-450k, the
first large-scale dataset explicitly designed for vertebral-level reasoning
across imaging modalities with over 450,000 instruction instances, and
SpineBench, a clinically-grounded evaluation framework. SpineMed-450k is
curated from diverse sources, including textbooks, guidelines, open datasets,
and ~1,000 de-identified hospital cases, using a clinician-in-the-loop pipeline
with a two-stage LLM generation method (draft and revision) to ensure
high-quality, traceable data for question-answering, multi-turn consultations,
and report generation. SpineBench evaluates models on clinically salient axes,
including level identification, pathology assessment, and surgical planning.
Our comprehensive evaluation of several recently advanced large vision-language
models (LVLMs) on SpineBench reveals systematic weaknesses in fine-grained,
level-specific reasoning. In contrast, our model fine-tuned on SpineMed-450k
demonstrates consistent and significant improvements across all tasks.
Clinician assessments confirm the diagnostic clarity and practical utility of
our model's outputs.