SpineBench: Un Punto de Referencia Clínicamente Relevante y Consciente del Nivel, Impulsado por el Corpus SpineMed-450k
SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k Corpus
October 3, 2025
Autores: Ming Zhao, Wenhui Dong, Yang Zhang, Xiang Zheng, Zhonghao Zhang, Zian Zhou, Yunzhi Guan, Liukun Xu, Wei Peng, Zhaoyang Gong, Zhicheng Zhang, Dachuan Li, Xiaosheng Ma, Yuli Ma, Jianing Ni, Changjiang Jiang, Lixia Tian, Qixin Chen, Kaishun Xia, Pingping Liu, Tongshun Zhang, Zhiqiang Liu, Zhongan Bi, Chenyang Si, Tiansheng Sun, Caifeng Shan
cs.AI
Resumen
Los trastornos de la columna vertebral afectan a 619 millones de personas a nivel mundial y son una de las principales causas de discapacidad, sin embargo, el diagnóstico asistido por inteligencia artificial sigue estando limitado por la falta de conjuntos de datos multimodales y conscientes del nivel vertebral. La toma de decisiones clínicas para los trastornos de la columna vertebral requiere un razonamiento sofisticado a través de radiografías, tomografías computarizadas (TC) y resonancias magnéticas (RM) en niveles vertebrales específicos. No obstante, el progreso se ha visto limitado por la ausencia de datos de instrucción trazables y basados en la práctica clínica, así como de puntos de referencia estandarizados y específicos para la columna vertebral. Para abordar este problema, presentamos SpineMed, un ecosistema codesarrollado con cirujanos de columna en ejercicio. Este incluye SpineMed-450k, el primer conjunto de datos a gran escala diseñado explícitamente para el razonamiento a nivel vertebral a través de modalidades de imagen, con más de 450,000 instancias de instrucción, y SpineBench, un marco de evaluación basado en la práctica clínica. SpineMed-450k se ha curado a partir de diversas fuentes, incluyendo libros de texto, guías, conjuntos de datos abiertos y aproximadamente 1,000 casos hospitalarios anonimizados, utilizando un proceso de "clínico en el bucle" con un método de generación en dos etapas mediante modelos de lenguaje grandes (LLM) (borrador y revisión) para garantizar datos de alta calidad y trazables para preguntas y respuestas, consultas multiturno y generación de informes. SpineBench evalúa los modelos en ejes clínicamente relevantes, como la identificación de niveles, la evaluación de patologías y la planificación quirúrgica. Nuestra evaluación exhaustiva de varios modelos avanzados recientes de visión y lenguaje (LVLM) en SpineBench revela debilidades sistemáticas en el razonamiento específico y detallado a nivel vertebral. En contraste, nuestro modelo ajustado en SpineMed-450k demuestra mejoras consistentes y significativas en todas las tareas. Las evaluaciones clínicas confirman la claridad diagnóstica y la utilidad práctica de las salidas de nuestro modelo.
English
Spine disorders affect 619 million people globally and are a leading cause of
disability, yet AI-assisted diagnosis remains limited by the lack of
level-aware, multimodal datasets. Clinical decision-making for spine disorders
requires sophisticated reasoning across X-ray, CT, and MRI at specific
vertebral levels. However, progress has been constrained by the absence of
traceable, clinically-grounded instruction data and standardized,
spine-specific benchmarks. To address this, we introduce SpineMed, an ecosystem
co-designed with practicing spine surgeons. It features SpineMed-450k, the
first large-scale dataset explicitly designed for vertebral-level reasoning
across imaging modalities with over 450,000 instruction instances, and
SpineBench, a clinically-grounded evaluation framework. SpineMed-450k is
curated from diverse sources, including textbooks, guidelines, open datasets,
and ~1,000 de-identified hospital cases, using a clinician-in-the-loop pipeline
with a two-stage LLM generation method (draft and revision) to ensure
high-quality, traceable data for question-answering, multi-turn consultations,
and report generation. SpineBench evaluates models on clinically salient axes,
including level identification, pathology assessment, and surgical planning.
Our comprehensive evaluation of several recently advanced large vision-language
models (LVLMs) on SpineBench reveals systematic weaknesses in fine-grained,
level-specific reasoning. In contrast, our model fine-tuned on SpineMed-450k
demonstrates consistent and significant improvements across all tasks.
Clinician assessments confirm the diagnostic clarity and practical utility of
our model's outputs.