BioTool: 대규모 언어 모델의 생의학 능력 향상을 위한 포괄적 도구 호출 데이터셋
BioTool: A Comprehensive Tool-Calling Dataset for Enhancing Biomedical Capabilities of Large Language Models
May 7, 2026
저자: Xin Gao, Ruiyi Zhang, Meixi Du, Peijia Qin, Pengtao Xie
cs.AI
초록
대규모 언어 모델(LLM)이 일반 목적 작업에서는 성공을 거두었지만, 생명의학과 같은 고도로 전문화된 분야에서의 성능은 여전히 만족스럽지 못합니다. 주요 한계점은 LLM이 임상 전문가와 생명의학 연구자들이 일상 업무에서 광범위하게 의존하는 생명의학 도구를 효과적으로 활용하지 못한다는 것입니다. 최근 일반 영역의 도구 호출 데이터셋이 LLM 에이전트의 능력을 크게 향상시켰지만, 생명의학 영역의 기존 연구는 주로 컨텍스트 내 학습에 의존하고 소규모 도구 집합으로 모델을 제한하고 있습니다. 이러한 격차를 해결하기 위해 본 연구는 LLM 미세 조정을 위해 설계된 포괄적인 생명의학 도구 호출 데이터셋인 BioTool을 소개합니다. BioTool은 NCBI, Ensembl, UniProt 데이터베이스에서 수집한 34개의 빈번히 사용되는 도구와 변이, 유전체학, 단백체학, 진화, 일반 생물학 분야에 걸친 7,040개의 고품질 인간 검증 질의-API 호출 쌍으로 구성됩니다. 40억 개의 파라미터를 가진 LLM을 BioTool로 미세 조정한 결과, 생명의학 도구 호출 성능이 현저히 향상되어 GPT-5.1과 같은 최첨단 상용 LLM을 능가하는 것으로 나타났습니다. 더 나아가, 인간 전문가 평가를 통해 BioTool로 미세 조정된 도구 호출기를 통합하면 도구 사용 없이 동일한 LLM을 사용할 때보다 하류 작업의 응답 품질이 크게 개선됨을 확인하여, BioTool이 LLM의 생명의학 역량 강화에 효과적임을 입증했습니다. 전체 데이터셋과 평가 코드는 https://github.com/gxx27/BioTool 에서 이용할 수 있습니다.
English
Despite the success of large language models (LLMs) on general-purpose tasks, their performance in highly specialized domains such as biomedicine remains unsatisfactory. A key limitation is the inability of LLMs to effectively leverage biomedical tools, which clinical experts and biomedical researchers rely on extensively in daily workflows. While recent general-domain tool-calling datasets have substantially improved the capabilities of LLM agents, existing efforts in the biomedical domain largely rely on in-context learning and restrict models to a small set of tools. To address this gap, we introduce BioTool, a comprehensive biomedical tool-calling dataset designed for fine-tuning LLMs. BioTool comprises 34 frequently used tools collected from the NCBI, Ensembl, and UniProt databases, along with 7,040 high-quality, human-verified query-API call pairs spanning variation, genomics, proteomics, evolution, and general biology. Fine-tuning a 4-billion-parameter LLM on BioTool yields substantial improvements in biomedical tool-calling performance, outperforming cutting-edge commercial LLMs such as GPT-5.1. Furthermore, human expert evaluations demonstrate that integrating a BioTool-fine-tuned tool caller significantly improves downstream answer quality compared to the same LLM without tool usage, highlighting the effectiveness of BioTool in enhancing the biomedical capabilities of LLMs. The full dataset and evaluation code are available at https://github.com/gxx27/BioTool