BiomedSQL: Преобразование текста в SQL для научных рассуждений на базах биомедицинских знаний
BiomedSQL: Text-to-SQL for Scientific Reasoning on Biomedical Knowledge Bases
May 23, 2025
Авторы: Mathew J. Koretsky, Maya Willey, Adi Asija, Owen Bianchi, Chelsea X. Alvarado, Tanay Nayak, Nicole Kuznetsov, Sungwon Kim, Mike A. Nalls, Daniel Khashabi, Faraz Faghri
cs.AI
Аннотация
Биомедицинские исследователи всё чаще полагаются на крупномасштабные структурированные базы данных для выполнения сложных аналитических задач. Однако современные системы преобразования текста в SQL часто испытывают трудности с преобразованием качественных научных вопросов в исполняемые SQL-запросы, особенно когда требуется неявное доменное рассуждение. Мы представляем BiomedSQL — первый эталонный набор, специально разработанный для оценки научного рассуждения в генерации SQL из текста на основе реальной биомедицинской базы знаний. BiomedSQL включает 68 000 троек вопрос/SQL-запрос/ответ, основанных на унифицированной базе данных BigQuery, которая интегрирует ассоциации генов и заболеваний, причинно-следственные выводы из омиксных данных и записи об одобрении лекарств. Каждый вопрос требует от моделей вывода доменно-специфических критериев, таких как пороги значимости на уровне генома, направленность эффекта или фильтрация по фазам клинических испытаний, а не просто синтаксического перевода. Мы оцениваем ряд открытых и закрытых языковых моделей (LLM) с использованием различных стратегий запросов и парадигм взаимодействия. Наши результаты выявляют значительный разрыв в производительности: GPT-o3-mini достигает точности выполнения 59,0%, в то время как наш пользовательский многошаговый агент BMSQL достигает 62,6%, что значительно ниже экспертного базового уровня в 90,0%. BiomedSQL предоставляет новую основу для развития систем преобразования текста в SQL, способных поддерживать научные открытия за счёт устойчивого рассуждения над структурированными биомедицинскими базами знаний. Наш набор данных доступен публично по адресу https://huggingface.co/datasets/NIH-CARD/BiomedSQL, а наш код является открытым и доступен на https://github.com/NIH-CARD/biomedsql.
English
Biomedical researchers increasingly rely on large-scale structured databases
for complex analytical tasks. However, current text-to-SQL systems often
struggle to map qualitative scientific questions into executable SQL,
particularly when implicit domain reasoning is required. We introduce
BiomedSQL, the first benchmark explicitly designed to evaluate scientific
reasoning in text-to-SQL generation over a real-world biomedical knowledge
base. BiomedSQL comprises 68,000 question/SQL query/answer triples grounded in
a harmonized BigQuery knowledge base that integrates gene-disease associations,
causal inference from omics data, and drug approval records. Each question
requires models to infer domain-specific criteria, such as genome-wide
significance thresholds, effect directionality, or trial phase filtering,
rather than rely on syntactic translation alone. We evaluate a range of open-
and closed-source LLMs across prompting strategies and interaction paradigms.
Our results reveal a substantial performance gap: GPT-o3-mini achieves 59.0%
execution accuracy, while our custom multi-step agent, BMSQL, reaches 62.6%,
both well below the expert baseline of 90.0%. BiomedSQL provides a new
foundation for advancing text-to-SQL systems capable of supporting scientific
discovery through robust reasoning over structured biomedical knowledge bases.
Our dataset is publicly available at
https://huggingface.co/datasets/NIH-CARD/BiomedSQL, and our code is open-source
at https://github.com/NIH-CARD/biomedsql.Summary
AI-Generated Summary