SpineBench: клинически значимый, уровневый бенчмарк, основанный на корпусе SpineMed-450k

Аннотация

Заболевания позвоночника затрагивают 619 миллионов человек по всему миру и являются одной из основных причин инвалидности, однако диагностика с использованием ИИ остается ограниченной из-за отсутствия мультимодальных наборов данных с учетом уровней позвоночника. Клиническое принятие решений при заболеваниях позвоночника требует сложного анализа данных рентгенографии, КТ и МРТ на уровне конкретных позвонков. Однако прогресс сдерживается отсутствием отслеживаемых, клинически обоснованных обучающих данных и стандартизированных бенчмарков, специфичных для позвоночника. Для решения этой проблемы мы представляем SpineMed — экосистему, разработанную совместно с практикующими хирургами-вертебрологами. Она включает SpineMed-450k, первый крупномасштабный набор данных, специально созданный для анализа на уровне позвонков с использованием различных методов визуализации, содержащий более 450 000 обучающих примеров, и SpineBench, клинически обоснованную систему оценки. SpineMed-450k создан из разнообразных источников, включая учебники, руководства, открытые наборы данных и около 1000 анонимизированных клинических случаев, с использованием клинически контролируемого процесса с двухэтапным методом генерации на основе больших языковых моделей (черновик и доработка) для обеспечения высококачественных, отслеживаемых данных для ответов на вопросы, многоэтапных консультаций и генерации отчетов. SpineBench оценивает модели по клинически значимым аспектам, включая идентификацию уровня, оценку патологий и планирование хирургических вмешательств. Наше всестороннее тестирование нескольких современных больших моделей, объединяющих обработку изображений и текста (LVLM), на SpineBench выявило системные слабости в детализированном, уровне-ориентированном анализе. В то же время наша модель, дообученная на SpineMed-450k, демонстрирует устойчивые и значительные улучшения по всем задачам. Оценки клиницистов подтверждают диагностическую ясность и практическую полезность результатов нашей модели.

English

Spine disorders affect 619 million people globally and are a leading cause of disability, yet AI-assisted diagnosis remains limited by the lack of level-aware, multimodal datasets. Clinical decision-making for spine disorders requires sophisticated reasoning across X-ray, CT, and MRI at specific vertebral levels. However, progress has been constrained by the absence of traceable, clinically-grounded instruction data and standardized, spine-specific benchmarks. To address this, we introduce SpineMed, an ecosystem co-designed with practicing spine surgeons. It features SpineMed-450k, the first large-scale dataset explicitly designed for vertebral-level reasoning across imaging modalities with over 450,000 instruction instances, and SpineBench, a clinically-grounded evaluation framework. SpineMed-450k is curated from diverse sources, including textbooks, guidelines, open datasets, and ~1,000 de-identified hospital cases, using a clinician-in-the-loop pipeline with a two-stage LLM generation method (draft and revision) to ensure high-quality, traceable data for question-answering, multi-turn consultations, and report generation. SpineBench evaluates models on clinically salient axes, including level identification, pathology assessment, and surgical planning. Our comprehensive evaluation of several recently advanced large vision-language models (LVLMs) on SpineBench reveals systematic weaknesses in fine-grained, level-specific reasoning. In contrast, our model fine-tuned on SpineMed-450k demonstrates consistent and significant improvements across all tasks. Clinician assessments confirm the diagnostic clarity and practical utility of our model's outputs.