SpineBench: Eine klinisch relevante, niveauorientierte Benchmark, angetrieben durch das SpineMed-450k-Korpus
SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k Corpus
October 3, 2025
papers.authors: Ming Zhao, Wenhui Dong, Yang Zhang, Xiang Zheng, Zhonghao Zhang, Zian Zhou, Yunzhi Guan, Liukun Xu, Wei Peng, Zhaoyang Gong, Zhicheng Zhang, Dachuan Li, Xiaosheng Ma, Yuli Ma, Jianing Ni, Changjiang Jiang, Lixia Tian, Qixin Chen, Kaishun Xia, Pingping Liu, Tongshun Zhang, Zhiqiang Liu, Zhongan Bi, Chenyang Si, Tiansheng Sun, Caifeng Shan
cs.AI
papers.abstract
Wirbelsäulenerkrankungen betreffen weltweit 619 Millionen Menschen und sind eine der Hauptursachen für Behinderungen. Dennoch wird die KI-gestützte Diagnose durch den Mangel an modalitätsübergreifenden, wirbelsäulenspezifischen Datensätzen eingeschränkt. Die klinische Entscheidungsfindung bei Wirbelsäulenerkrankungen erfordert eine anspruchsvolle Analyse von Röntgen-, CT- und MRT-Bildern auf spezifischen Wirbelebenen. Der Fortschritt wird jedoch durch das Fehlen von nachvollziehbaren, klinisch fundierten Instruktionsdaten und standardisierten, wirbelsäulenspezifischen Benchmarks behindert. Um dies zu beheben, stellen wir SpineMed vor, ein Ökosystem, das in Zusammenarbeit mit praktizierenden Wirbelsäulenchirurgen entwickelt wurde. Es umfasst SpineMed-450k, den ersten groß angelegten Datensatz, der explizit für die Analyse auf Wirbelebene über verschiedene Bildgebungsmodalitäten mit über 450.000 Instruktionsinstanzen konzipiert wurde, sowie SpineBench, ein klinisch fundiertes Bewertungsframework. SpineMed-450k wurde aus verschiedenen Quellen kuratiert, darunter Lehrbücher, Leitlinien, offene Datensätze und etwa 1.000 anonymisierte Krankenhausfälle, unter Verwendung einer klinikerintegrierten Pipeline mit einer zweistufigen LLM-Generierungsmethode (Entwurf und Überarbeitung), um hochwertige, nachvollziehbare Daten für Frage-Antwort-Systeme, mehrstufige Konsultationen und Berichterstellung zu gewährleisten. SpineBench bewertet Modelle anhand klinisch relevanter Kriterien, darunter Ebenenidentifikation, Pathologiebewertung und chirurgische Planung. Unsere umfassende Bewertung mehrerer kürzlich entwickelter großer visuell-sprachlicher Modelle (LVLMs) auf SpineBench zeigt systematische Schwächen bei der feingranularen, ebenenspezifischen Analyse. Im Gegensatz dazu zeigt unser auf SpineMed-450k feinabgestimmtes Modell durchgängige und signifikante Verbesserungen bei allen Aufgaben. Klinikerbewertungen bestätigen die diagnostische Klarheit und praktische Nützlichkeit der Modellausgaben.
English
Spine disorders affect 619 million people globally and are a leading cause of
disability, yet AI-assisted diagnosis remains limited by the lack of
level-aware, multimodal datasets. Clinical decision-making for spine disorders
requires sophisticated reasoning across X-ray, CT, and MRI at specific
vertebral levels. However, progress has been constrained by the absence of
traceable, clinically-grounded instruction data and standardized,
spine-specific benchmarks. To address this, we introduce SpineMed, an ecosystem
co-designed with practicing spine surgeons. It features SpineMed-450k, the
first large-scale dataset explicitly designed for vertebral-level reasoning
across imaging modalities with over 450,000 instruction instances, and
SpineBench, a clinically-grounded evaluation framework. SpineMed-450k is
curated from diverse sources, including textbooks, guidelines, open datasets,
and ~1,000 de-identified hospital cases, using a clinician-in-the-loop pipeline
with a two-stage LLM generation method (draft and revision) to ensure
high-quality, traceable data for question-answering, multi-turn consultations,
and report generation. SpineBench evaluates models on clinically salient axes,
including level identification, pathology assessment, and surgical planning.
Our comprehensive evaluation of several recently advanced large vision-language
models (LVLMs) on SpineBench reveals systematic weaknesses in fine-grained,
level-specific reasoning. In contrast, our model fine-tuned on SpineMed-450k
demonstrates consistent and significant improvements across all tasks.
Clinician assessments confirm the diagnostic clarity and practical utility of
our model's outputs.