Raisonnement par Cohorte de Similarité Patient dans le Text-to-SQL Clinique
Patient-Similarity Cohort Reasoning in Clinical Text-to-SQL
January 14, 2026
papers.authors: Yifei Shen, Yilun Zhao, Justice Ou, Tinglin Huang, Arman Cohan
cs.AI
papers.abstract
La traduction de requêtes cliniques en SQL dans le monde réel nécessite un raisonnement sur des tables hétérogènes de dossiers médicaux électroniques (DME), des fenêtres temporelles et des cohortes de similarité entre patients pour produire des requêtes exécutables. Nous présentons CLINSQL, un benchmark de 633 tâches annotées par des experts sur MIMIC-IV v3.1, qui exige des jointures multi-tables, des filtres cliniquement pertinents et du SQL exécutable. Résoudre CLINSQL implique de naviguer dans les métadonnées du schéma et les systèmes de codage clinique, de traiter des contextes longs et de composer des requêtes en plusieurs étapes qui vont au-delà du text-to-SQL traditionnel. Nous évaluons 22 modèles propriétaires et open-source sous un processus d'auto-affinement en chaîne de pensée (Chain-of-Thought) et utilisons une analyse SQL basée sur une grille d'évaluation avec vérifications d'exécution qui priorisent les exigences cliniques critiques. Malgré les récents progrès, les performances restent loin de la fiabilité clinique : sur l'ensemble de test, GPT-5-mini atteint un score d'exécution de 74,7 %, DeepSeek-R1 mène les modèles open-source à 69,2 %, et Gemini-2.5-Pro chute de 85,5 % sur les tâches Faciles à 67,2 % sur les tâches Difficiles. Les progrès sur CLINSQL marquent des avancées tangentes vers un système de text-to-SQL cliniquement fiable pour l'analyse des DME en conditions réelles.
English
Real-world clinical text-to-SQL requires reasoning over heterogeneous EHR tables, temporal windows, and patient-similarity cohorts to produce executable queries. We introduce CLINSQL, a benchmark of 633 expert-annotated tasks on MIMIC-IV v3.1 that demands multi-table joins, clinically meaningful filters, and executable SQL. Solving CLINSQL entails navigating schema metadata and clinical coding systems, handling long contexts, and composing multi-step queries beyond traditional text-to-SQL. We evaluate 22 proprietary and open-source models under Chain-of-Thought self-refinement and use rubric-based SQL analysis with execution checks that prioritize critical clinical requirements. Despite recent advances, performance remains far from clinical reliability: on the test set, GPT-5-mini attains 74.7% execution score, DeepSeek-R1 leads open-source at 69.2% and Gemini-2.5-Pro drops from 85.5% on Easy to 67.2% on Hard. Progress on CLINSQL marks tangible advances toward clinically reliable text-to-SQL for real-world EHR analytics.