ChatPaper.aiChatPaper

Patient-Similarity-Kohorten-Analyse in klinischen Text-zu-SQL-Systemen

Patient-Similarity Cohort Reasoning in Clinical Text-to-SQL

January 14, 2026
papers.authors: Yifei Shen, Yilun Zhao, Justice Ou, Tinglin Huang, Arman Cohan
cs.AI

papers.abstract

Text-to-SQL in der klinischen Praxis erfordert das Schließen über heterogene EHR-Tabellen, Zeitfenster und Patientenähnlichkeitskohorten hinweg, um ausführbare Abfragen zu generieren. Wir stellen CLINSQL vor, einen Benchmark mit 633 expertannotierten Aufgaben auf Basis von MIMIC-IV v3.1, der Multi-Table-Joins, klinisch sinnvolle Filter und ausführbaren SQL-Code erfordert. Die Lösung von CLINSQL erfordert die Navigation durch Schema-Metadaten und klinische Kodierungssysteme, die Verarbeitung langer Kontexte und die Formulierung mehrstufiger Abfragen, die über traditionelles Text-to-SQL hinausgehen. Wir evaluieren 22 proprietäre und Open-Source-Modelle unter Chain-of-Thought-Selbstverbesserung und verwenden eine rubrikbasierte SQL-Analyse mit Ausführungsprüfungen, die kritische klinische Anforderungen priorisieren. Trotz jüngster Fortschritte bleibt die Leistung weit von klinischer Zuverlässigkeit entfernt: Im Testset erreicht GPT-5-mini 74,7% Execution Score, DeepSeek-R1 führt Open-Source-Modelle mit 69,2% an, und Gemini-2.5-Pro fällt von 85,5% bei leichten Aufgaben auf 67,2% bei schwierigen Aufgaben ab. Fortschritte bei CLINSQL markieren greifbare Verbesserungen auf dem Weg zu klinisch zuverlässigem Text-to-SQL für EHR-Analysen in der Praxis.
English
Real-world clinical text-to-SQL requires reasoning over heterogeneous EHR tables, temporal windows, and patient-similarity cohorts to produce executable queries. We introduce CLINSQL, a benchmark of 633 expert-annotated tasks on MIMIC-IV v3.1 that demands multi-table joins, clinically meaningful filters, and executable SQL. Solving CLINSQL entails navigating schema metadata and clinical coding systems, handling long contexts, and composing multi-step queries beyond traditional text-to-SQL. We evaluate 22 proprietary and open-source models under Chain-of-Thought self-refinement and use rubric-based SQL analysis with execution checks that prioritize critical clinical requirements. Despite recent advances, performance remains far from clinical reliability: on the test set, GPT-5-mini attains 74.7% execution score, DeepSeek-R1 leads open-source at 69.2% and Gemini-2.5-Pro drops from 85.5% on Easy to 67.2% on Hard. Progress on CLINSQL marks tangible advances toward clinically reliable text-to-SQL for real-world EHR analytics.
PDF41January 17, 2026