SpineBench: Un Punto de Referencia Clínicamente Relevante y Consciente del Nivel, Impulsado por el Corpus SpineMed-450k

Resumen

Los trastornos de la columna vertebral afectan a 619 millones de personas a nivel mundial y son una de las principales causas de discapacidad, sin embargo, el diagnóstico asistido por inteligencia artificial sigue estando limitado por la falta de conjuntos de datos multimodales y conscientes del nivel vertebral. La toma de decisiones clínicas para los trastornos de la columna vertebral requiere un razonamiento sofisticado a través de radiografías, tomografías computarizadas (TC) y resonancias magnéticas (RM) en niveles vertebrales específicos. No obstante, el progreso se ha visto limitado por la ausencia de datos de instrucción trazables y basados en la práctica clínica, así como de puntos de referencia estandarizados y específicos para la columna vertebral. Para abordar este problema, presentamos SpineMed, un ecosistema codesarrollado con cirujanos de columna en ejercicio. Este incluye SpineMed-450k, el primer conjunto de datos a gran escala diseñado explícitamente para el razonamiento a nivel vertebral a través de modalidades de imagen, con más de 450,000 instancias de instrucción, y SpineBench, un marco de evaluación basado en la práctica clínica. SpineMed-450k se ha curado a partir de diversas fuentes, incluyendo libros de texto, guías, conjuntos de datos abiertos y aproximadamente 1,000 casos hospitalarios anonimizados, utilizando un proceso de "clínico en el bucle" con un método de generación en dos etapas mediante modelos de lenguaje grandes (LLM) (borrador y revisión) para garantizar datos de alta calidad y trazables para preguntas y respuestas, consultas multiturno y generación de informes. SpineBench evalúa los modelos en ejes clínicamente relevantes, como la identificación de niveles, la evaluación de patologías y la planificación quirúrgica. Nuestra evaluación exhaustiva de varios modelos avanzados recientes de visión y lenguaje (LVLM) en SpineBench revela debilidades sistemáticas en el razonamiento específico y detallado a nivel vertebral. En contraste, nuestro modelo ajustado en SpineMed-450k demuestra mejoras consistentes y significativas en todas las tareas. Las evaluaciones clínicas confirman la claridad diagnóstica y la utilidad práctica de las salidas de nuestro modelo.

English

Spine disorders affect 619 million people globally and are a leading cause of disability, yet AI-assisted diagnosis remains limited by the lack of level-aware, multimodal datasets. Clinical decision-making for spine disorders requires sophisticated reasoning across X-ray, CT, and MRI at specific vertebral levels. However, progress has been constrained by the absence of traceable, clinically-grounded instruction data and standardized, spine-specific benchmarks. To address this, we introduce SpineMed, an ecosystem co-designed with practicing spine surgeons. It features SpineMed-450k, the first large-scale dataset explicitly designed for vertebral-level reasoning across imaging modalities with over 450,000 instruction instances, and SpineBench, a clinically-grounded evaluation framework. SpineMed-450k is curated from diverse sources, including textbooks, guidelines, open datasets, and ~1,000 de-identified hospital cases, using a clinician-in-the-loop pipeline with a two-stage LLM generation method (draft and revision) to ensure high-quality, traceable data for question-answering, multi-turn consultations, and report generation. SpineBench evaluates models on clinically salient axes, including level identification, pathology assessment, and surgical planning. Our comprehensive evaluation of several recently advanced large vision-language models (LVLMs) on SpineBench reveals systematic weaknesses in fine-grained, level-specific reasoning. In contrast, our model fine-tuned on SpineMed-450k demonstrates consistent and significant improvements across all tasks. Clinician assessments confirm the diagnostic clarity and practical utility of our model's outputs.