ChatPaper.aiChatPaper

BiomedSQL: Text-to-SQL para Raciocínio Científico em Bases de Conhecimento Biomédico

BiomedSQL: Text-to-SQL for Scientific Reasoning on Biomedical Knowledge Bases

May 23, 2025
Autores: Mathew J. Koretsky, Maya Willey, Adi Asija, Owen Bianchi, Chelsea X. Alvarado, Tanay Nayak, Nicole Kuznetsov, Sungwon Kim, Mike A. Nalls, Daniel Khashabi, Faraz Faghri
cs.AI

Resumo

Pesquisadores biomédicos estão cada vez mais dependendo de bancos de dados estruturados em larga escala para tarefas analíticas complexas. No entanto, os sistemas atuais de conversão de texto para SQL frequentemente enfrentam dificuldades para mapear questões científicas qualitativas em SQL executável, especialmente quando raciocínio implícito do domínio é necessário. Apresentamos o BiomedSQL, o primeiro benchmark explicitamente projetado para avaliar o raciocínio científico na geração de texto para SQL sobre uma base de conhecimento biomédica do mundo real. O BiomedSQL compreende 68.000 triplas de pergunta/consulta SQL/resposta, ancoradas em uma base de conhecimento harmonizada do BigQuery que integra associações gene-doença, inferência causal a partir de dados ômicos e registros de aprovação de medicamentos. Cada questão exige que os modelos infiram critérios específicos do domínio, como limiares de significância em todo o genoma, direcionalidade do efeito ou filtragem por fase de ensaio, em vez de depender apenas de tradução sintática. Avaliamos uma variedade de modelos de linguagem de código aberto e fechado em diferentes estratégias de prompt e paradigmas de interação. Nossos resultados revelam uma lacuna substancial de desempenho: o GPT-o3-mini alcança 59,0% de precisão na execução, enquanto nosso agente personalizado de múltiplos passos, BMSQL, atinge 62,6%, ambos bem abaixo da linha de base de especialistas de 90,0%. O BiomedSQL fornece uma nova base para avançar sistemas de texto para SQL capazes de apoiar a descoberta científica por meio de raciocínio robusto sobre bases de conhecimento biomédicas estruturadas. Nosso conjunto de dados está publicamente disponível em https://huggingface.co/datasets/NIH-CARD/BiomedSQL, e nosso código é de código aberto em https://github.com/NIH-CARD/biomedsql.
English
Biomedical researchers increasingly rely on large-scale structured databases for complex analytical tasks. However, current text-to-SQL systems often struggle to map qualitative scientific questions into executable SQL, particularly when implicit domain reasoning is required. We introduce BiomedSQL, the first benchmark explicitly designed to evaluate scientific reasoning in text-to-SQL generation over a real-world biomedical knowledge base. BiomedSQL comprises 68,000 question/SQL query/answer triples grounded in a harmonized BigQuery knowledge base that integrates gene-disease associations, causal inference from omics data, and drug approval records. Each question requires models to infer domain-specific criteria, such as genome-wide significance thresholds, effect directionality, or trial phase filtering, rather than rely on syntactic translation alone. We evaluate a range of open- and closed-source LLMs across prompting strategies and interaction paradigms. Our results reveal a substantial performance gap: GPT-o3-mini achieves 59.0% execution accuracy, while our custom multi-step agent, BMSQL, reaches 62.6%, both well below the expert baseline of 90.0%. BiomedSQL provides a new foundation for advancing text-to-SQL systems capable of supporting scientific discovery through robust reasoning over structured biomedical knowledge bases. Our dataset is publicly available at https://huggingface.co/datasets/NIH-CARD/BiomedSQL, and our code is open-source at https://github.com/NIH-CARD/biomedsql.
PDF52December 4, 2025