BiomedSQL: Texto a SQL para razonamiento científico en bases de conocimiento biomédico
BiomedSQL: Text-to-SQL for Scientific Reasoning on Biomedical Knowledge Bases
May 23, 2025
Autores: Mathew J. Koretsky, Maya Willey, Adi Asija, Owen Bianchi, Chelsea X. Alvarado, Tanay Nayak, Nicole Kuznetsov, Sungwon Kim, Mike A. Nalls, Daniel Khashabi, Faraz Faghri
cs.AI
Resumen
Los investigadores biomédicos dependen cada vez más de bases de datos estructuradas a gran escala para tareas analíticas complejas. Sin embargo, los sistemas actuales de texto a SQL a menudo tienen dificultades para mapear preguntas científicas cualitativas en SQL ejecutable, especialmente cuando se requiere razonamiento implícito del dominio. Presentamos BiomedSQL, el primer benchmark diseñado explícitamente para evaluar el razonamiento científico en la generación de texto a SQL sobre una base de conocimiento biomédica del mundo real. BiomedSQL comprende 68,000 tripletas de pregunta/consulta SQL/respuesta basadas en una base de conocimiento armonizada de BigQuery que integra asociaciones gen-enfermedad, inferencia causal a partir de datos ómicos y registros de aprobación de fármacos. Cada pregunta requiere que los modelos infieran criterios específicos del dominio, como umbrales de significación a nivel genómico, direccionalidad del efecto o filtrado por fase de ensayos, en lugar de depender únicamente de la traducción sintáctica. Evaluamos una variedad de modelos de lenguaje grandes (LLM) de código abierto y cerrado a través de estrategias de prompting y paradigmas de interacción. Nuestros resultados revelan una brecha de rendimiento sustancial: GPT-o3-mini alcanza un 59.0% de precisión en la ejecución, mientras que nuestro agente personalizado de múltiples pasos, BMSQL, llega al 62.6%, ambos muy por debajo del baseline experto del 90.0%. BiomedSQL proporciona una nueva base para avanzar en sistemas de texto a SQL capaces de apoyar el descubrimiento científico mediante un razonamiento robusto sobre bases de conocimiento biomédicas estructuradas. Nuestro conjunto de datos está disponible públicamente en https://huggingface.co/datasets/NIH-CARD/BiomedSQL, y nuestro código es de código abierto en https://github.com/NIH-CARD/biomedsql.
English
Biomedical researchers increasingly rely on large-scale structured databases
for complex analytical tasks. However, current text-to-SQL systems often
struggle to map qualitative scientific questions into executable SQL,
particularly when implicit domain reasoning is required. We introduce
BiomedSQL, the first benchmark explicitly designed to evaluate scientific
reasoning in text-to-SQL generation over a real-world biomedical knowledge
base. BiomedSQL comprises 68,000 question/SQL query/answer triples grounded in
a harmonized BigQuery knowledge base that integrates gene-disease associations,
causal inference from omics data, and drug approval records. Each question
requires models to infer domain-specific criteria, such as genome-wide
significance thresholds, effect directionality, or trial phase filtering,
rather than rely on syntactic translation alone. We evaluate a range of open-
and closed-source LLMs across prompting strategies and interaction paradigms.
Our results reveal a substantial performance gap: GPT-o3-mini achieves 59.0%
execution accuracy, while our custom multi-step agent, BMSQL, reaches 62.6%,
both well below the expert baseline of 90.0%. BiomedSQL provides a new
foundation for advancing text-to-SQL systems capable of supporting scientific
discovery through robust reasoning over structured biomedical knowledge bases.
Our dataset is publicly available at
https://huggingface.co/datasets/NIH-CARD/BiomedSQL, and our code is open-source
at https://github.com/NIH-CARD/biomedsql.Summary
AI-Generated Summary