BiomedSQL: 生物医学知識ベースにおける科学的推論のためのText-to-SQL
BiomedSQL: Text-to-SQL for Scientific Reasoning on Biomedical Knowledge Bases
May 23, 2025
著者: Mathew J. Koretsky, Maya Willey, Adi Asija, Owen Bianchi, Chelsea X. Alvarado, Tanay Nayak, Nicole Kuznetsov, Sungwon Kim, Mike A. Nalls, Daniel Khashabi, Faraz Faghri
cs.AI
要旨
生物医学研究者は、複雑な分析タスクにおいて大規模な構造化データベースにますます依存しています。しかし、現在のテキストからSQLへの変換システムは、特に暗黙のドメイン推論が必要な場合に、定性的な科学的質問を実行可能なSQLにマッピングするのに苦労することが多いです。本研究では、実世界の生物医学知識ベース上でのテキストからSQL生成における科学的推論を評価するために明示的に設計された最初のベンチマークであるBiomedSQLを紹介します。BiomedSQLは、遺伝子と疾患の関連性、オミクスデータからの因果推論、および医薬品承認記録を統合したBigQuery知識ベースに基づく68,000の質問/SQLクエリ/回答のトリプルで構成されています。各質問は、構文変換だけに頼るのではなく、ゲノムワイドな有意性閾値、効果の方向性、または試験段階のフィルタリングなどのドメイン固有の基準をモデルに推論させる必要があります。我々は、プロンプト戦略とインタラクションパラダイムにわたって、オープンソースおよびクローズドソースのLLMを評価しました。結果は、GPT-o3-miniが59.0%の実行精度を達成し、我々のカスタム多段階エージェントであるBMSQLが62.6%に達するという大きな性能ギャップを明らかにしましたが、どちらも専門家のベースラインである90.0%を大きく下回っています。BiomedSQLは、構造化された生物医学知識ベース上での堅牢な推論を通じて科学的発見を支援できるテキストからSQLへの変換システムを進歩させるための新しい基盤を提供します。我々のデータセットはhttps://huggingface.co/datasets/NIH-CARD/BiomedSQLで公開されており、コードはhttps://github.com/NIH-CARD/biomedsqlでオープンソースとして利用可能です。
English
Biomedical researchers increasingly rely on large-scale structured databases
for complex analytical tasks. However, current text-to-SQL systems often
struggle to map qualitative scientific questions into executable SQL,
particularly when implicit domain reasoning is required. We introduce
BiomedSQL, the first benchmark explicitly designed to evaluate scientific
reasoning in text-to-SQL generation over a real-world biomedical knowledge
base. BiomedSQL comprises 68,000 question/SQL query/answer triples grounded in
a harmonized BigQuery knowledge base that integrates gene-disease associations,
causal inference from omics data, and drug approval records. Each question
requires models to infer domain-specific criteria, such as genome-wide
significance thresholds, effect directionality, or trial phase filtering,
rather than rely on syntactic translation alone. We evaluate a range of open-
and closed-source LLMs across prompting strategies and interaction paradigms.
Our results reveal a substantial performance gap: GPT-o3-mini achieves 59.0%
execution accuracy, while our custom multi-step agent, BMSQL, reaches 62.6%,
both well below the expert baseline of 90.0%. BiomedSQL provides a new
foundation for advancing text-to-SQL systems capable of supporting scientific
discovery through robust reasoning over structured biomedical knowledge bases.
Our dataset is publicly available at
https://huggingface.co/datasets/NIH-CARD/BiomedSQL, and our code is open-source
at https://github.com/NIH-CARD/biomedsql.Summary
AI-Generated Summary