SpineBench: клинически значимый, уровневый бенчмарк, основанный на корпусе SpineMed-450k
SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k Corpus
October 3, 2025
Авторы: Ming Zhao, Wenhui Dong, Yang Zhang, Xiang Zheng, Zhonghao Zhang, Zian Zhou, Yunzhi Guan, Liukun Xu, Wei Peng, Zhaoyang Gong, Zhicheng Zhang, Dachuan Li, Xiaosheng Ma, Yuli Ma, Jianing Ni, Changjiang Jiang, Lixia Tian, Qixin Chen, Kaishun Xia, Pingping Liu, Tongshun Zhang, Zhiqiang Liu, Zhongan Bi, Chenyang Si, Tiansheng Sun, Caifeng Shan
cs.AI
Аннотация
Заболевания позвоночника затрагивают 619 миллионов человек по всему миру и являются одной из основных причин инвалидности, однако диагностика с использованием ИИ остается ограниченной из-за отсутствия мультимодальных наборов данных с учетом уровней позвоночника. Клиническое принятие решений при заболеваниях позвоночника требует сложного анализа данных рентгенографии, КТ и МРТ на уровне конкретных позвонков. Однако прогресс сдерживается отсутствием отслеживаемых, клинически обоснованных обучающих данных и стандартизированных бенчмарков, специфичных для позвоночника. Для решения этой проблемы мы представляем SpineMed — экосистему, разработанную совместно с практикующими хирургами-вертебрологами. Она включает SpineMed-450k, первый крупномасштабный набор данных, специально созданный для анализа на уровне позвонков с использованием различных методов визуализации, содержащий более 450 000 обучающих примеров, и SpineBench, клинически обоснованную систему оценки. SpineMed-450k создан из разнообразных источников, включая учебники, руководства, открытые наборы данных и около 1000 анонимизированных клинических случаев, с использованием клинически контролируемого процесса с двухэтапным методом генерации на основе больших языковых моделей (черновик и доработка) для обеспечения высококачественных, отслеживаемых данных для ответов на вопросы, многоэтапных консультаций и генерации отчетов. SpineBench оценивает модели по клинически значимым аспектам, включая идентификацию уровня, оценку патологий и планирование хирургических вмешательств. Наше всестороннее тестирование нескольких современных больших моделей, объединяющих обработку изображений и текста (LVLM), на SpineBench выявило системные слабости в детализированном, уровне-ориентированном анализе. В то же время наша модель, дообученная на SpineMed-450k, демонстрирует устойчивые и значительные улучшения по всем задачам. Оценки клиницистов подтверждают диагностическую ясность и практическую полезность результатов нашей модели.
English
Spine disorders affect 619 million people globally and are a leading cause of
disability, yet AI-assisted diagnosis remains limited by the lack of
level-aware, multimodal datasets. Clinical decision-making for spine disorders
requires sophisticated reasoning across X-ray, CT, and MRI at specific
vertebral levels. However, progress has been constrained by the absence of
traceable, clinically-grounded instruction data and standardized,
spine-specific benchmarks. To address this, we introduce SpineMed, an ecosystem
co-designed with practicing spine surgeons. It features SpineMed-450k, the
first large-scale dataset explicitly designed for vertebral-level reasoning
across imaging modalities with over 450,000 instruction instances, and
SpineBench, a clinically-grounded evaluation framework. SpineMed-450k is
curated from diverse sources, including textbooks, guidelines, open datasets,
and ~1,000 de-identified hospital cases, using a clinician-in-the-loop pipeline
with a two-stage LLM generation method (draft and revision) to ensure
high-quality, traceable data for question-answering, multi-turn consultations,
and report generation. SpineBench evaluates models on clinically salient axes,
including level identification, pathology assessment, and surgical planning.
Our comprehensive evaluation of several recently advanced large vision-language
models (LVLMs) on SpineBench reveals systematic weaknesses in fine-grained,
level-specific reasoning. In contrast, our model fine-tuned on SpineMed-450k
demonstrates consistent and significant improvements across all tasks.
Clinician assessments confirm the diagnostic clarity and practical utility of
our model's outputs.