SpineBench : Un benchmark cliniquement pertinent et hiérarchisé alimenté par le corpus SpineMed-450k
SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k Corpus
October 3, 2025
papers.authors: Ming Zhao, Wenhui Dong, Yang Zhang, Xiang Zheng, Zhonghao Zhang, Zian Zhou, Yunzhi Guan, Liukun Xu, Wei Peng, Zhaoyang Gong, Zhicheng Zhang, Dachuan Li, Xiaosheng Ma, Yuli Ma, Jianing Ni, Changjiang Jiang, Lixia Tian, Qixin Chen, Kaishun Xia, Pingping Liu, Tongshun Zhang, Zhiqiang Liu, Zhongan Bi, Chenyang Si, Tiansheng Sun, Caifeng Shan
cs.AI
papers.abstract
Les troubles rachidiens touchent 619 millions de personnes dans le monde et constituent une cause majeure d'invalidité, pourtant le diagnostic assisté par l'IA reste limité par le manque de jeux de données multimodaux prenant en compte les niveaux vertébraux. La prise de décision clinique pour les troubles rachidiens nécessite un raisonnement sophistiqué à travers les radiographies, les scanners et les IRM à des niveaux vertébraux spécifiques. Cependant, les progrès ont été entravés par l'absence de données d'instruction traçables et cliniquement fondées, ainsi que de benchmarks standardisés spécifiques à la colonne vertébrale. Pour remédier à cela, nous présentons SpineMed, un écosystème co-conçu avec des chirurgiens du rachis en exercice. Il comprend SpineMed-450k, le premier jeu de données à grande échelle explicitement conçu pour le raisonnement au niveau vertébral à travers différentes modalités d'imagerie avec plus de 450 000 instances d'instruction, et SpineBench, un cadre d'évaluation cliniquement fondé. SpineMed-450k est constitué à partir de sources diverses, notamment des manuels, des directives, des jeux de données ouverts et environ 1 000 cas hospitaliers anonymisés, en utilisant un pipeline avec un clinicien dans la boucle et une méthode de génération en deux étapes (brouillon et révision) pour garantir des données de haute qualité et traçables pour les questions-réponses, les consultations multi-tours et la génération de rapports. SpineBench évalue les modèles sur des axes cliniquement pertinents, notamment l'identification des niveaux, l'évaluation des pathologies et la planification chirurgicale. Notre évaluation complète de plusieurs modèles récents de vision-langage à grande échelle (LVLMs) sur SpineBench révèle des faiblesses systématiques dans le raisonnement fin et spécifique aux niveaux. En revanche, notre modèle affiné sur SpineMed-450k démontre des améliorations constantes et significatives sur toutes les tâches. Les évaluations des cliniciens confirment la clarté diagnostique et l'utilité pratique des sorties de notre modèle.
English
Spine disorders affect 619 million people globally and are a leading cause of
disability, yet AI-assisted diagnosis remains limited by the lack of
level-aware, multimodal datasets. Clinical decision-making for spine disorders
requires sophisticated reasoning across X-ray, CT, and MRI at specific
vertebral levels. However, progress has been constrained by the absence of
traceable, clinically-grounded instruction data and standardized,
spine-specific benchmarks. To address this, we introduce SpineMed, an ecosystem
co-designed with practicing spine surgeons. It features SpineMed-450k, the
first large-scale dataset explicitly designed for vertebral-level reasoning
across imaging modalities with over 450,000 instruction instances, and
SpineBench, a clinically-grounded evaluation framework. SpineMed-450k is
curated from diverse sources, including textbooks, guidelines, open datasets,
and ~1,000 de-identified hospital cases, using a clinician-in-the-loop pipeline
with a two-stage LLM generation method (draft and revision) to ensure
high-quality, traceable data for question-answering, multi-turn consultations,
and report generation. SpineBench evaluates models on clinically salient axes,
including level identification, pathology assessment, and surgical planning.
Our comprehensive evaluation of several recently advanced large vision-language
models (LVLMs) on SpineBench reveals systematic weaknesses in fine-grained,
level-specific reasoning. In contrast, our model fine-tuned on SpineMed-450k
demonstrates consistent and significant improvements across all tasks.
Clinician assessments confirm the diagnostic clarity and practical utility of
our model's outputs.