BioTool: Комплексный набор данных для вызова инструментов с целью расширения биомедицинских возможностей больших языковых моделей

Аннотация

Несмотря на успехи больших языковых моделей (LLM) в решении общецелевых задач, их производительность в высокоспециализированных областях, таких как биомедицина, остается неудовлетворительной. Ключевым ограничением является неспособность LLM эффективно использовать биомедицинские инструменты, которые клинические эксперты и исследователи широко применяют в повседневной работе. Хотя недавние наборы данных по вызову инструментов в общей области существенно улучшили возможности LLM-агентов, существующие разработки в биомедицинской сфере в основном полагаются на обучение в контексте и ограничивают модели небольшим набором инструментов. Для устранения этого пробела мы представляем BioTool — комплексный набор данных по вызову биомедицинских инструментов, предназначенный для тонкой настройки LLM. BioTool включает 34 часто используемых инструмента, собранных из баз данных NCBI, Ensembl и UniProt, а также 7 040 высококачественных, проверенных человеком пар «запрос-API вызов», охватывающих вариацию, геномику, протеомику, эволюцию и общую биологию. Тонкая настройка LLM с 4 миллиардами параметров на BioTool приводит к значительному улучшению производительности при вызове биомедицинских инструментов, превосходя передовые коммерческие LLM, такие как GPT-5.1. Кроме того, оценка экспертами-людьми демонстрирует, что интеграция настроенного на BioTool модуля вызова инструментов значительно повышает качество ответов в последующих задачах по сравнению с той же LLM без использования инструментов, что подчеркивает эффективность BioTool в расширении биомедицинских возможностей LLM. Полный набор данных и код для оценки доступны по адресу https://github.com/gxx27/BioTool.

English

Despite the success of large language models (LLMs) on general-purpose tasks, their performance in highly specialized domains such as biomedicine remains unsatisfactory. A key limitation is the inability of LLMs to effectively leverage biomedical tools, which clinical experts and biomedical researchers rely on extensively in daily workflows. While recent general-domain tool-calling datasets have substantially improved the capabilities of LLM agents, existing efforts in the biomedical domain largely rely on in-context learning and restrict models to a small set of tools. To address this gap, we introduce BioTool, a comprehensive biomedical tool-calling dataset designed for fine-tuning LLMs. BioTool comprises 34 frequently used tools collected from the NCBI, Ensembl, and UniProt databases, along with 7,040 high-quality, human-verified query-API call pairs spanning variation, genomics, proteomics, evolution, and general biology. Fine-tuning a 4-billion-parameter LLM on BioTool yields substantial improvements in biomedical tool-calling performance, outperforming cutting-edge commercial LLMs such as GPT-5.1. Furthermore, human expert evaluations demonstrate that integrating a BioTool-fine-tuned tool caller significantly improves downstream answer quality compared to the same LLM without tool usage, highlighting the effectiveness of BioTool in enhancing the biomedical capabilities of LLMs. The full dataset and evaluation code are available at https://github.com/gxx27/BioTool

BioTool: Комплексный набор данных для вызова инструментов с целью расширения биомедицинских возможностей больших языковых моделей

BioTool: A Comprehensive Tool-Calling Dataset for Enhancing Biomedical Capabilities of Large Language Models

Аннотация

Support