Ragionamento su Coorti di Similitudine del Paziente nel Clinical Text-to-SQL
Patient-Similarity Cohort Reasoning in Clinical Text-to-SQL
January 14, 2026
Autori: Yifei Shen, Yilun Zhao, Justice Ou, Tinglin Huang, Arman Cohan
cs.AI
Abstract
La traduzione del testo clinico in SQL nel mondo reale richiede la capacità di ragionare su tabelle eterogenee di EHR, finestre temporali e coorti di similarità tra pazienti per produrre query eseguibili. Introduciamo CLINSQL, un benchmark di 633 task annotati da esperti su MIMIC-IV v3.1 che richiede join multi-tabella, filtri clinicamente significativi e SQL eseguibile. Risolvere CLINSQL implica navigare metadati dello schema e sistemi di codifica clinica, gestire contesti lunghi e comporre query multi-step che vanno oltre il tradizionale text-to-SQL. Valutiamo 22 modelli proprietari e open-source sotto il perfezionamento autonomo a catena del pensiero (Chain-of-Thought), utilizzando un'analisi SQL basata su rubriche con controlli di esecuzione che danno priorità ai requisiti clinici critici. Nonostante i recenti progressi, le prestazioni rimangono lontane dall'affidabilità clinica: sul set di test, GPT-5-mini raggiunge il 74,7% di punteggio di esecuzione, DeepSeek-R1 guida l'open source con il 69,2% e Gemini-2.5-Pro scende dall'85,5% sui task Facili al 67,2% su quelli Difficili. I progressi su CLINSQL segnano avanzamenti tangibili verso un text-to-SSQL clinicamente affidabile per l'analisi di EHR nel mondo reale.
English
Real-world clinical text-to-SQL requires reasoning over heterogeneous EHR tables, temporal windows, and patient-similarity cohorts to produce executable queries. We introduce CLINSQL, a benchmark of 633 expert-annotated tasks on MIMIC-IV v3.1 that demands multi-table joins, clinically meaningful filters, and executable SQL. Solving CLINSQL entails navigating schema metadata and clinical coding systems, handling long contexts, and composing multi-step queries beyond traditional text-to-SQL. We evaluate 22 proprietary and open-source models under Chain-of-Thought self-refinement and use rubric-based SQL analysis with execution checks that prioritize critical clinical requirements. Despite recent advances, performance remains far from clinical reliability: on the test set, GPT-5-mini attains 74.7% execution score, DeepSeek-R1 leads open-source at 69.2% and Gemini-2.5-Pro drops from 85.5% on Easy to 67.2% on Hard. Progress on CLINSQL marks tangible advances toward clinically reliable text-to-SQL for real-world EHR analytics.