BiomedSQL: 생의학 지식 기반을 위한 과학적 추론을 위한 텍스트-to-SQL
BiomedSQL: Text-to-SQL for Scientific Reasoning on Biomedical Knowledge Bases
May 23, 2025
저자: Mathew J. Koretsky, Maya Willey, Adi Asija, Owen Bianchi, Chelsea X. Alvarado, Tanay Nayak, Nicole Kuznetsov, Sungwon Kim, Mike A. Nalls, Daniel Khashabi, Faraz Faghri
cs.AI
초록
생명의학 연구자들은 복잡한 분석 작업을 위해 대규모 구조화된 데이터베이스에 점점 더 의존하고 있습니다. 그러나 현재의 텍스트-to-SQL 시스템은 질적 과학적 질문을 실행 가능한 SQL로 매핑하는 데 어려움을 겪으며, 특히 암묵적인 도메인 추론이 필요한 경우 더욱 그러합니다. 우리는 실제 생명의학 지식 기반에 대한 텍스트-to-SQL 생성에서 과학적 추론을 평가하기 위해 명시적으로 설계된 첫 번째 벤치마크인 BiomedSQL을 소개합니다. BiomedSQL은 유전자-질병 연관성, 오믹스 데이터의 인과적 추론, 약물 승인 기록을 통합한 BigQuery 지식 기반에 기반한 68,000개의 질문/SQL 쿼리/답변 삼중항으로 구성됩니다. 각 질문은 모델이 구문적 번역에만 의존하는 대신, 게놈 전체 유의성 임계값, 효과 방향성, 임상 시험 단계 필터링과 같은 도메인 특정 기준을 추론하도록 요구합니다. 우리는 다양한 오픈소스 및 클로즈드소스 LLM을 프롬프트 전략과 상호작용 패러다임에 걸쳐 평가했습니다. 우리의 결과는 상당한 성능 격차를 보여줍니다: GPT-o3-mini는 59.0%의 실행 정확도를 달성한 반면, 우리의 맞춤형 다단계 에이전트인 BMSQL은 62.6%에 도달했으며, 둘 다 전문가 기준선인 90.0%에 훨씬 미치지 못했습니다. BiomedSQL은 구조화된 생명의학 지식 기반에 대한 강력한 추론을 통해 과학적 발견을 지원할 수 있는 텍스트-to-SQL 시스템을 발전시키기 위한 새로운 기반을 제공합니다. 우리의 데이터셋은 https://huggingface.co/datasets/NIH-CARD/BiomedSQL에서 공개적으로 이용 가능하며, 코드는 https://github.com/NIH-CARD/biomedsql에서 오픈소스로 제공됩니다.
English
Biomedical researchers increasingly rely on large-scale structured databases
for complex analytical tasks. However, current text-to-SQL systems often
struggle to map qualitative scientific questions into executable SQL,
particularly when implicit domain reasoning is required. We introduce
BiomedSQL, the first benchmark explicitly designed to evaluate scientific
reasoning in text-to-SQL generation over a real-world biomedical knowledge
base. BiomedSQL comprises 68,000 question/SQL query/answer triples grounded in
a harmonized BigQuery knowledge base that integrates gene-disease associations,
causal inference from omics data, and drug approval records. Each question
requires models to infer domain-specific criteria, such as genome-wide
significance thresholds, effect directionality, or trial phase filtering,
rather than rely on syntactic translation alone. We evaluate a range of open-
and closed-source LLMs across prompting strategies and interaction paradigms.
Our results reveal a substantial performance gap: GPT-o3-mini achieves 59.0%
execution accuracy, while our custom multi-step agent, BMSQL, reaches 62.6%,
both well below the expert baseline of 90.0%. BiomedSQL provides a new
foundation for advancing text-to-SQL systems capable of supporting scientific
discovery through robust reasoning over structured biomedical knowledge bases.
Our dataset is publicly available at
https://huggingface.co/datasets/NIH-CARD/BiomedSQL, and our code is open-source
at https://github.com/NIH-CARD/biomedsql.Summary
AI-Generated Summary