ChatPaper.aiChatPaper

BiomedSQL: Text-to-SQL per il ragionamento scientifico su basi di conoscenza biomediche

BiomedSQL: Text-to-SQL for Scientific Reasoning on Biomedical Knowledge Bases

May 23, 2025
Autori: Mathew J. Koretsky, Maya Willey, Adi Asija, Owen Bianchi, Chelsea X. Alvarado, Tanay Nayak, Nicole Kuznetsov, Sungwon Kim, Mike A. Nalls, Daniel Khashabi, Faraz Faghri
cs.AI

Abstract

I ricercatori biomedici si affidano sempre più a database strutturati su larga scala per svolgere compiti analitici complessi. Tuttavia, gli attuali sistemi text-to-SQL spesso faticano a tradurre domande scientifiche qualitative in SQL eseguibile, specialmente quando è richiesto un ragionamento implicito sul dominio. Introduciamo BiomedSQL, il primo benchmark progettato esplicitamente per valutare il ragionamento scientifico nella generazione di SQL a partire da testo, su una base di conoscenza biomedica reale. BiomedSQL comprende 68.000 triplette domanda/query SQL/risposta, basate su una base di conoscenza armonizzata in BigQuery che integra associazioni gene-malattia, inferenze causali da dati omici e registri di approvazione di farmaci. Ogni domanda richiede ai modelli di dedurre criteri specifici del dominio, come soglie di significatività a livello genomico, direzionalità degli effetti o filtri sulla fase di sperimentazione, piuttosto che affidarsi esclusivamente alla traduzione sintattica. Valutiamo una gamma di LLM open-source e proprietari, esplorando diverse strategie di prompting e paradigmi di interazione. I nostri risultati rivelano un divario prestazionale significativo: GPT-o3-mini raggiunge un'accuratezza di esecuzione del 59,0%, mentre il nostro agente personalizzato multi-step, BMSQL, arriva al 62,6%, entrambi ben al di sotto della linea di base esperta del 90,0%. BiomedSQL fornisce una nuova base per avanzare i sistemi text-to-SQL in grado di supportare la scoperta scientifica attraverso un ragionamento robusto su basi di conoscenza biomediche strutturate. Il nostro dataset è disponibile pubblicamente all'indirizzo https://huggingface.co/datasets/NIH-CARD/BiomedSQL, e il nostro codice è open-source all'indirizzo https://github.com/NIH-CARD/biomedsql.
English
Biomedical researchers increasingly rely on large-scale structured databases for complex analytical tasks. However, current text-to-SQL systems often struggle to map qualitative scientific questions into executable SQL, particularly when implicit domain reasoning is required. We introduce BiomedSQL, the first benchmark explicitly designed to evaluate scientific reasoning in text-to-SQL generation over a real-world biomedical knowledge base. BiomedSQL comprises 68,000 question/SQL query/answer triples grounded in a harmonized BigQuery knowledge base that integrates gene-disease associations, causal inference from omics data, and drug approval records. Each question requires models to infer domain-specific criteria, such as genome-wide significance thresholds, effect directionality, or trial phase filtering, rather than rely on syntactic translation alone. We evaluate a range of open- and closed-source LLMs across prompting strategies and interaction paradigms. Our results reveal a substantial performance gap: GPT-o3-mini achieves 59.0% execution accuracy, while our custom multi-step agent, BMSQL, reaches 62.6%, both well below the expert baseline of 90.0%. BiomedSQL provides a new foundation for advancing text-to-SQL systems capable of supporting scientific discovery through robust reasoning over structured biomedical knowledge bases. Our dataset is publicly available at https://huggingface.co/datasets/NIH-CARD/BiomedSQL, and our code is open-source at https://github.com/NIH-CARD/biomedsql.
PDF52May 28, 2025