BiomedSQL: Text-to-SQL für wissenschaftliches Schließen auf biomedizinischen Wissensbasen
BiomedSQL: Text-to-SQL for Scientific Reasoning on Biomedical Knowledge Bases
May 23, 2025
Autoren: Mathew J. Koretsky, Maya Willey, Adi Asija, Owen Bianchi, Chelsea X. Alvarado, Tanay Nayak, Nicole Kuznetsov, Sungwon Kim, Mike A. Nalls, Daniel Khashabi, Faraz Faghri
cs.AI
Zusammenfassung
Biomedizinische Forscher verlassen sich zunehmend auf groß angelegte strukturierte Datenbanken für komplexe analytische Aufgaben. Aktuelle Text-zu-SQL-Systeme haben jedoch oft Schwierigkeiten, qualitative wissenschaftliche Fragen in ausführbare SQL-Abfragen abzubilden, insbesondere wenn implizites domänenspezifisches Denken erforderlich ist. Wir stellen BiomedSQL vor, den ersten Benchmark, der explizit entwickelt wurde, um wissenschaftliches Denken bei der Text-zu-SQL-Generierung über eine realitätsnahe biomedizinische Wissensdatenbank zu evaluieren. BiomedSQL umfasst 68.000 Frage/SQL-Abfrage/Antwort-Tripel, die auf einer harmonisierten BigQuery-Wissensdatenbank basieren, die Gen-Krankheits-Assoziationen, kausale Inferenzen aus Omics-Daten und Arzneimittelzulassungsdaten integriert. Jede Frage erfordert, dass Modelle domänenspezifische Kriterien ableiten, wie z. B. genomweite Signifikanzschwellen, Effektrichtungen oder Filterung nach Studienphasen, anstatt sich allein auf syntaktische Übersetzung zu verlassen. Wir evaluieren eine Reihe von Open-Source- und Closed-Source-LLMs über verschiedene Prompting-Strategien und Interaktionsparadigmen hinweg. Unsere Ergebnisse zeigen eine erhebliche Leistungslücke: GPT-o3-mini erreicht eine Ausführungsgenauigkeit von 59,0 %, während unser benutzerdefinierter Multi-Schritt-Agent, BMSQL, 62,6 % erreicht, beide deutlich unter der Experten-Baseline von 90,0 %. BiomedSQL bietet eine neue Grundlage für die Weiterentwicklung von Text-zu-SQL-Systemen, die in der Lage sind, die wissenschaftliche Entdeckung durch robustes Denken über strukturierte biomedizinische Wissensdatenbanken zu unterstützen. Unser Datensatz ist öffentlich verfügbar unter https://huggingface.co/datasets/NIH-CARD/BiomedSQL, und unser Code ist Open-Source unter https://github.com/NIH-CARD/biomedsql.
English
Biomedical researchers increasingly rely on large-scale structured databases
for complex analytical tasks. However, current text-to-SQL systems often
struggle to map qualitative scientific questions into executable SQL,
particularly when implicit domain reasoning is required. We introduce
BiomedSQL, the first benchmark explicitly designed to evaluate scientific
reasoning in text-to-SQL generation over a real-world biomedical knowledge
base. BiomedSQL comprises 68,000 question/SQL query/answer triples grounded in
a harmonized BigQuery knowledge base that integrates gene-disease associations,
causal inference from omics data, and drug approval records. Each question
requires models to infer domain-specific criteria, such as genome-wide
significance thresholds, effect directionality, or trial phase filtering,
rather than rely on syntactic translation alone. We evaluate a range of open-
and closed-source LLMs across prompting strategies and interaction paradigms.
Our results reveal a substantial performance gap: GPT-o3-mini achieves 59.0%
execution accuracy, while our custom multi-step agent, BMSQL, reaches 62.6%,
both well below the expert baseline of 90.0%. BiomedSQL provides a new
foundation for advancing text-to-SQL systems capable of supporting scientific
discovery through robust reasoning over structured biomedical knowledge bases.
Our dataset is publicly available at
https://huggingface.co/datasets/NIH-CARD/BiomedSQL, and our code is open-source
at https://github.com/NIH-CARD/biomedsql.Summary
AI-Generated Summary