SpineBench: SpineMed-450k 코퍼스 기반의 임상적 중요성과 수준 인식 벤치마크
SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k Corpus
October 3, 2025
저자: Ming Zhao, Wenhui Dong, Yang Zhang, Xiang Zheng, Zhonghao Zhang, Zian Zhou, Yunzhi Guan, Liukun Xu, Wei Peng, Zhaoyang Gong, Zhicheng Zhang, Dachuan Li, Xiaosheng Ma, Yuli Ma, Jianing Ni, Changjiang Jiang, Lixia Tian, Qixin Chen, Kaishun Xia, Pingping Liu, Tongshun Zhang, Zhiqiang Liu, Zhongan Bi, Chenyang Si, Tiansheng Sun, Caifeng Shan
cs.AI
초록
척추 질환은 전 세계적으로 6억 1,900만 명에 영향을 미치며 장애의 주요 원인 중 하나입니다. 그러나 AI 보조 진단은 여전히 수준 인식이 가능한 다중 모드 데이터셋의 부족으로 제한되고 있습니다. 척추 질환에 대한 임상적 의사결정은 특정 척추 수준에서 X선, CT, MRI를 아우르는 정교한 추론을 필요로 합니다. 그러나 추적 가능하고 임상적으로 근거가 있는 지시 데이터와 표준화된 척추 특화 벤치마크의 부재로 인해 진전이 제한되어 왔습니다. 이를 해결하기 위해 우리는 현직 척추 외과 의사들과 공동 설계한 SpineMed 생태계를 소개합니다. 이 생태계는 450,000개 이상의 지시 인스턴스를 포함한 첫 번째 대규모 척추 수준 추론 데이터셋인 SpineMed-450k와 임상적으로 근거가 있는 평가 프레임워크인 SpineBench를 특징으로 합니다. SpineMed-450k는 교과서, 가이드라인, 공개 데이터셋 및 약 1,000건의 익명화된 병원 사례를 포함한 다양한 소스에서 선별되었으며, 고품질의 추적 가능한 데이터를 보장하기 위해 임상의가 참여한 두 단계의 대형 언어 모델(LLM) 생성 방법(초안 및 수정)을 사용하여 질문-답변, 다중 턴 상담 및 보고서 생성을 위한 데이터를 구축했습니다. SpineBench는 수준 식별, 병리 평가 및 수술 계획을 포함한 임상적으로 중요한 축에서 모델을 평가합니다. SpineBench에서 최근 발전한 여러 대형 시각-언어 모델(LVLM)을 종합적으로 평가한 결과, 세분화된 수준별 추론에서 체계적인 약점이 드러났습니다. 반면, SpineMed-450k에서 미세 조정된 우리의 모델은 모든 작업에서 일관되고 상당한 개선을 보여주었습니다. 임상의 평가는 우리 모델의 출력물이 진단 명확성과 실용적 유용성을 갖추고 있음을 확인시켜 주었습니다.
English
Spine disorders affect 619 million people globally and are a leading cause of
disability, yet AI-assisted diagnosis remains limited by the lack of
level-aware, multimodal datasets. Clinical decision-making for spine disorders
requires sophisticated reasoning across X-ray, CT, and MRI at specific
vertebral levels. However, progress has been constrained by the absence of
traceable, clinically-grounded instruction data and standardized,
spine-specific benchmarks. To address this, we introduce SpineMed, an ecosystem
co-designed with practicing spine surgeons. It features SpineMed-450k, the
first large-scale dataset explicitly designed for vertebral-level reasoning
across imaging modalities with over 450,000 instruction instances, and
SpineBench, a clinically-grounded evaluation framework. SpineMed-450k is
curated from diverse sources, including textbooks, guidelines, open datasets,
and ~1,000 de-identified hospital cases, using a clinician-in-the-loop pipeline
with a two-stage LLM generation method (draft and revision) to ensure
high-quality, traceable data for question-answering, multi-turn consultations,
and report generation. SpineBench evaluates models on clinically salient axes,
including level identification, pathology assessment, and surgical planning.
Our comprehensive evaluation of several recently advanced large vision-language
models (LVLMs) on SpineBench reveals systematic weaknesses in fine-grained,
level-specific reasoning. In contrast, our model fine-tuned on SpineMed-450k
demonstrates consistent and significant improvements across all tasks.
Clinician assessments confirm the diagnostic clarity and practical utility of
our model's outputs.