ChatPaper.aiChatPaper

BioTool: 大規模言語モデルのバイオメディカル能力向上のための包括的ツール呼び出しデータセット

BioTool: A Comprehensive Tool-Calling Dataset for Enhancing Biomedical Capabilities of Large Language Models

May 7, 2026
著者: Xin Gao, Ruiyi Zhang, Meixi Du, Peijia Qin, Pengtao Xie
cs.AI

要旨

大規模言語モデル(LLM)は汎用タスクで成功を収めているものの、生物医学のような高度に専門化された領域における性能は依然として不十分である。主要な制約要因は、臨床専門家や生物医学研究者が日々の業務で頻繁に依存している生物医学ツールをLLMが効果的に活用できない点にある。近年の汎用領域におけるツール呼び出しデータセットはLLMエージェントの能力を大幅に向上させたが、生物医学領域での既存の取り組みは主に文脈内学習に依存し、モデルを少数のツール群に限定している。この課題を解決するため、我々はLLMのファインチューニング向けに設計された包括的な生物医学ツール呼び出しデータセット「BioTool」を提案する。BioToolはNCBI、Ensembl、UniProtデータベースから収集した34の高頻度使用ツールと、変異、ゲノミクス、プロテオミクス、進化、一般生物学の分野にわたる7,040件の高品質な人手検証済みクエリ-API呼び出しペアで構成される。40億パラメータのLLMをBioToolでファインチューニングした結果、生物医学ツール呼び出し性能が大幅に向上し、GPT-5.1のような最先端の商用LLMを凌駕する性能を示した。さらに、人間専門家による評価では、BioToolでファインチューニングしたツール呼び出し機能を統合することで、ツール未使用の同一LLMと比較して下流タスクの回答品質が有意に向上することが実証され、BioToolがLLMの生物医学領域能力強化に有効であることが明らかとなった。完全なデータセットと評価コードはhttps://github.com/gxx27/BioToolで公開されている。
English
Despite the success of large language models (LLMs) on general-purpose tasks, their performance in highly specialized domains such as biomedicine remains unsatisfactory. A key limitation is the inability of LLMs to effectively leverage biomedical tools, which clinical experts and biomedical researchers rely on extensively in daily workflows. While recent general-domain tool-calling datasets have substantially improved the capabilities of LLM agents, existing efforts in the biomedical domain largely rely on in-context learning and restrict models to a small set of tools. To address this gap, we introduce BioTool, a comprehensive biomedical tool-calling dataset designed for fine-tuning LLMs. BioTool comprises 34 frequently used tools collected from the NCBI, Ensembl, and UniProt databases, along with 7,040 high-quality, human-verified query-API call pairs spanning variation, genomics, proteomics, evolution, and general biology. Fine-tuning a 4-billion-parameter LLM on BioTool yields substantial improvements in biomedical tool-calling performance, outperforming cutting-edge commercial LLMs such as GPT-5.1. Furthermore, human expert evaluations demonstrate that integrating a BioTool-fine-tuned tool caller significantly improves downstream answer quality compared to the same LLM without tool usage, highlighting the effectiveness of BioTool in enhancing the biomedical capabilities of LLMs. The full dataset and evaluation code are available at https://github.com/gxx27/BioTool
PDF02May 9, 2026