ChatPaper.aiChatPaper

SpineBench: Een klinisch relevant, niveau-bewust benchmarkplatform aangedreven door het SpineMed-450k Corpus

SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k Corpus

October 3, 2025
Auteurs: Ming Zhao, Wenhui Dong, Yang Zhang, Xiang Zheng, Zhonghao Zhang, Zian Zhou, Yunzhi Guan, Liukun Xu, Wei Peng, Zhaoyang Gong, Zhicheng Zhang, Dachuan Li, Xiaosheng Ma, Yuli Ma, Jianing Ni, Changjiang Jiang, Lixia Tian, Qixin Chen, Kaishun Xia, Pingping Liu, Tongshun Zhang, Zhiqiang Liu, Zhongan Bi, Chenyang Si, Tiansheng Sun, Caifeng Shan
cs.AI

Samenvatting

Wervelkolomaandoeningen treffen wereldwijd 619 miljoen mensen en zijn een belangrijke oorzaak van invaliditeit, toch blijft AI-ondersteunde diagnose beperkt door het gebrek aan niveau-bewuste, multimodale datasets. Klinische besluitvorming voor wervelkolomaandoeningen vereist geavanceerde redenering over röntgenfoto's, CT-scans en MRI's op specifieke wervelniveaus. Echter, de vooruitgang wordt belemmerd door het ontbreken van traceerbare, klinisch onderbouwde instructiedata en gestandaardiseerde, wervelkolomspecifieke benchmarks. Om dit aan te pakken, introduceren we SpineMed, een ecosysteem dat in samenwerking met praktiserende wervelkolomchirurgen is ontworpen. Het omvat SpineMed-450k, de eerste grootschalige dataset die expliciet is ontworpen voor wervelniveau-redenering over beeldvormingsmodaliteiten met meer dan 450.000 instructiegevallen, en SpineBench, een klinisch onderbouwd evaluatiekader. SpineMed-450k is samengesteld uit diverse bronnen, waaronder leerboeken, richtlijnen, open datasets en ~1.000 geanonimiseerde ziekenhuisgevallen, met behulp van een klinisch begeleid proces met een tweestaps LLM-generatiemethode (concept en revisie) om hoogwaardige, traceerbare data te garanderen voor vraag-antwoord, meerzijdige consultaties en rapportgeneratie. SpineBench evalueert modellen op klinisch relevante aspecten, waaronder niveau-identificatie, pathologiebeoordeling en chirurgische planning. Onze uitgebreide evaluatie van verschillende recent geavanceerde grote visie-taalmodellen (LVLMs) op SpineBench onthult systematische zwaktes in fijnmazige, niveauspecifieke redenering. Daarentegen toont ons model, afgestemd op SpineMed-450k, consistente en significante verbeteringen over alle taken. Klinische beoordelingen bevestigen de diagnostische duidelijkheid en praktische bruikbaarheid van de uitvoer van ons model.
English
Spine disorders affect 619 million people globally and are a leading cause of disability, yet AI-assisted diagnosis remains limited by the lack of level-aware, multimodal datasets. Clinical decision-making for spine disorders requires sophisticated reasoning across X-ray, CT, and MRI at specific vertebral levels. However, progress has been constrained by the absence of traceable, clinically-grounded instruction data and standardized, spine-specific benchmarks. To address this, we introduce SpineMed, an ecosystem co-designed with practicing spine surgeons. It features SpineMed-450k, the first large-scale dataset explicitly designed for vertebral-level reasoning across imaging modalities with over 450,000 instruction instances, and SpineBench, a clinically-grounded evaluation framework. SpineMed-450k is curated from diverse sources, including textbooks, guidelines, open datasets, and ~1,000 de-identified hospital cases, using a clinician-in-the-loop pipeline with a two-stage LLM generation method (draft and revision) to ensure high-quality, traceable data for question-answering, multi-turn consultations, and report generation. SpineBench evaluates models on clinically salient axes, including level identification, pathology assessment, and surgical planning. Our comprehensive evaluation of several recently advanced large vision-language models (LVLMs) on SpineBench reveals systematic weaknesses in fine-grained, level-specific reasoning. In contrast, our model fine-tuned on SpineMed-450k demonstrates consistent and significant improvements across all tasks. Clinician assessments confirm the diagnostic clarity and practical utility of our model's outputs.
PDF42October 6, 2025