ChatPaper.aiChatPaper

臨床テキスト-to-SQLにおける患者類似性コーホート推論

Patient-Similarity Cohort Reasoning in Clinical Text-to-SQL

January 14, 2026
著者: Yifei Shen, Yilun Zhao, Justice Ou, Tinglin Huang, Arman Cohan
cs.AI

要旨

実世界の臨床テキスト-to-SQLでは、実行可能なクエリを生成するために、異種混合のEHRテーブル、時間的ウィンドウ、患者類似性コホートに対する推論が求められる。本論文では、MIMIC-IV v3.1に基づく633件の専門家注釈タスクからなるベンチマークCLINSQLを提案する。これは、複数テーブル結合、臨床的に意味のあるフィルタ、実行可能なSQLを必要とする。CLINSQLの解決には、スキーマメタデータと臨床コーディングシステムの把握、長いコンテキストの処理、従来のテキスト-to-SQLを超える多段階クエリの構築が不可欠である。Chain-of-Thought自己改良の下で22のプロプライエタリ及びオープンソースモデルを評価し、重要な臨床要件を優先する実行チェック付きルーブリックベースのSQL分析を採用した。近年の進歩にもかかわらず、性能は臨床的信頼性には程遠い:テストセットでは、GPT-5-miniが74.7%の実行スコアを達成し、DeepSeek-R1がオープンソース最高の69.2%、Gemini-2.5-ProはEasyで85.5%からHardで67.2%に低下した。CLINSQLにおける進歩は、実世界EHR分析のための臨床的に信頼できるテキスト-to-SQLへの具体的な前進を示すものである。
English
Real-world clinical text-to-SQL requires reasoning over heterogeneous EHR tables, temporal windows, and patient-similarity cohorts to produce executable queries. We introduce CLINSQL, a benchmark of 633 expert-annotated tasks on MIMIC-IV v3.1 that demands multi-table joins, clinically meaningful filters, and executable SQL. Solving CLINSQL entails navigating schema metadata and clinical coding systems, handling long contexts, and composing multi-step queries beyond traditional text-to-SQL. We evaluate 22 proprietary and open-source models under Chain-of-Thought self-refinement and use rubric-based SQL analysis with execution checks that prioritize critical clinical requirements. Despite recent advances, performance remains far from clinical reliability: on the test set, GPT-5-mini attains 74.7% execution score, DeepSeek-R1 leads open-source at 69.2% and Gemini-2.5-Pro drops from 85.5% on Easy to 67.2% on Hard. Progress on CLINSQL marks tangible advances toward clinically reliable text-to-SQL for real-world EHR analytics.
PDF41January 17, 2026