BiomedSQL : Text-to-SQL pour le raisonnement scientifique sur les bases de connaissances biomédicales
BiomedSQL: Text-to-SQL for Scientific Reasoning on Biomedical Knowledge Bases
May 23, 2025
papers.authors: Mathew J. Koretsky, Maya Willey, Adi Asija, Owen Bianchi, Chelsea X. Alvarado, Tanay Nayak, Nicole Kuznetsov, Sungwon Kim, Mike A. Nalls, Daniel Khashabi, Faraz Faghri
cs.AI
papers.abstract
Les chercheurs en biomédecine s'appuient de plus en plus sur des bases de données structurées à grande échelle pour des tâches analytiques complexes. Cependant, les systèmes actuels de conversion de texte en SQL peinent souvent à traduire des questions scientifiques qualitatives en requêtes SQL exécutables, en particulier lorsqu'un raisonnement implicite sur le domaine est nécessaire. Nous présentons BiomedSQL, le premier benchmark explicitement conçu pour évaluer le raisonnement scientifique dans la génération de texte en SQL sur une base de connaissances biomédicales réelle. BiomedSQL comprend 68 000 triplets question/requête SQL/réponse ancrés dans une base de connaissances harmonisée BigQuery qui intègre des associations gène-maladie, des inférences causales à partir de données omiques et des enregistrements d'approbation de médicaments. Chaque question nécessite que les modèles infèrent des critères spécifiques au domaine, tels que des seuils de signification à l'échelle du génome, la directionnalité des effets ou le filtrage des phases d'essais, plutôt que de s'appuyer uniquement sur une traduction syntaxique. Nous évaluons une gamme de modèles de langage open-source et propriétaires à travers différentes stratégies d'invite et paradigmes d'interaction. Nos résultats révèlent un écart de performance substantiel : GPT-o3-mini atteint une précision d'exécution de 59,0 %, tandis que notre agent personnalisé multi-étapes, BMSQL, atteint 62,6 %, tous deux bien en dessous de la référence experte de 90,0 %. BiomedSQL fournit une nouvelle base pour faire progresser les systèmes de conversion de texte en SQL capables de soutenir la découverte scientifique grâce à un raisonnement robuste sur des bases de connaissances biomédicales structurées. Notre ensemble de données est disponible publiquement à l'adresse https://huggingface.co/datasets/NIH-CARD/BiomedSQL, et notre code est open-source à l'adresse https://github.com/NIH-CARD/biomedsql.
English
Biomedical researchers increasingly rely on large-scale structured databases
for complex analytical tasks. However, current text-to-SQL systems often
struggle to map qualitative scientific questions into executable SQL,
particularly when implicit domain reasoning is required. We introduce
BiomedSQL, the first benchmark explicitly designed to evaluate scientific
reasoning in text-to-SQL generation over a real-world biomedical knowledge
base. BiomedSQL comprises 68,000 question/SQL query/answer triples grounded in
a harmonized BigQuery knowledge base that integrates gene-disease associations,
causal inference from omics data, and drug approval records. Each question
requires models to infer domain-specific criteria, such as genome-wide
significance thresholds, effect directionality, or trial phase filtering,
rather than rely on syntactic translation alone. We evaluate a range of open-
and closed-source LLMs across prompting strategies and interaction paradigms.
Our results reveal a substantial performance gap: GPT-o3-mini achieves 59.0%
execution accuracy, while our custom multi-step agent, BMSQL, reaches 62.6%,
both well below the expert baseline of 90.0%. BiomedSQL provides a new
foundation for advancing text-to-SQL systems capable of supporting scientific
discovery through robust reasoning over structured biomedical knowledge bases.
Our dataset is publicly available at
https://huggingface.co/datasets/NIH-CARD/BiomedSQL, and our code is open-source
at https://github.com/NIH-CARD/biomedsql.