Raciocínio de Coorte por Similaridade de Pacientes em Texto Clínico para SQL

Resumo

A tradução do texto para português, mantendo o estilo acadêmico e a precisão técnica, é a seguinte: A conversão de texto clínico para SQL no mundo real exige raciocínio sobre tabelas heterogêneas de EHR (Registros Eletrônicos de Saúde), janelas temporais e coortes de similaridade de pacientes para produzir consultas executáveis. Apresentamos o CLINSQL, um *benchmark* de 633 tarefas anotadas por especialistas na versão MIMIC-IV v3.1 que demanda junções de múltiplas tabelas, filtros clinicamente significativos e SQL executável. Resolver o CLINSQL implica navegar por metadados de esquema e sistemas de codificação clínica, lidar com contextos longos e compor consultas de múltiplos passos que vão além do texto-para-SQL tradicional. Avaliamos 22 modelos proprietários e de código aberto sob autorrefinamento com *Chain-of-Thought* (Cadeia de Pensamento) e utilizamos análise de SQL baseada em rubrica com verificações de execução que priorizam requisitos clínicos críticos. Apesar dos avanços recentes, o desempenho permanece muito distante da confiabilidade clínica: no conjunto de teste, o GPT-5-mini atinge 74,7% de pontuação de execução, o DeepSeek-R1 lidera entre os de código aberto com 69,2%, e o Gemini-2.5-Pro cai de 85,5% nas tarefas Fáceis para 67,2% nas Difíceis. O progresso no CLINSQL marca avanços tangíveis rumo a um sistema de texto-para-SQL clinicamente confiável para análise de EHR no mundo real.

English

Real-world clinical text-to-SQL requires reasoning over heterogeneous EHR tables, temporal windows, and patient-similarity cohorts to produce executable queries. We introduce CLINSQL, a benchmark of 633 expert-annotated tasks on MIMIC-IV v3.1 that demands multi-table joins, clinically meaningful filters, and executable SQL. Solving CLINSQL entails navigating schema metadata and clinical coding systems, handling long contexts, and composing multi-step queries beyond traditional text-to-SQL. We evaluate 22 proprietary and open-source models under Chain-of-Thought self-refinement and use rubric-based SQL analysis with execution checks that prioritize critical clinical requirements. Despite recent advances, performance remains far from clinical reliability: on the test set, GPT-5-mini attains 74.7% execution score, DeepSeek-R1 leads open-source at 69.2% and Gemini-2.5-Pro drops from 85.5% on Easy to 67.2% on Hard. Progress on CLINSQL marks tangible advances toward clinically reliable text-to-SQL for real-world EHR analytics.