MedINST: バイオメディカルインストラクションのメタデータセット
MedINST: Meta Dataset of Biomedical Instructions
October 17, 2024
著者: Wenhan Han, Meng Fang, Zihan Zhang, Yu Yin, Zirui Song, Ling Chen, Mykola Pechenizkiy, Qingyu Chen
cs.AI
要旨
大規模言語モデル(LLM)技術の医学分野への統合は、重要な進歩をもたらしていますが、大規模で多様かつ十分に注釈が付けられたデータセットの不足は依然として主要な課題です。フォーマット、サイズ、その他のパラメータが異なる医療データやタスクは、効果的なLLMのトレーニングには広範な前処理と標準化が必要です。これらの課題に対処するために、我々はMedINST(医療関連指示のメタデータセット)を導入します。これは新しい多ドメイン、多タスクの指示メタデータセットであり、133のバイオメディカルNLPタスクと700万以上のトレーニングサンプルを含んでおり、これまでで最も包括的なバイオメディカル指示データセットです。MedINSTをメタデータセットとして使用し、異なるタスクの難易度を持つ挑戦的なベンチマークであるMedINST32をキュレーションします。これは、LLMの汎化能力を評価することを目的としており、MedINSTで数種類のLLMを微調整し、MedINST32で評価を行い、クロスタスクの汎化能力の向上を示しています。
English
The integration of large language model (LLM) techniques in the field of
medical analysis has brought about significant advancements, yet the scarcity
of large, diverse, and well-annotated datasets remains a major challenge.
Medical data and tasks, which vary in format, size, and other parameters,
require extensive preprocessing and standardization for effective use in
training LLMs. To address these challenges, we introduce MedINST, the Meta
Dataset of Biomedical Instructions, a novel multi-domain, multi-task
instructional meta-dataset. MedINST comprises 133 biomedical NLP tasks and over
7 million training samples, making it the most comprehensive biomedical
instruction dataset to date. Using MedINST as the meta dataset, we curate
MedINST32, a challenging benchmark with different task difficulties aiming to
evaluate LLMs' generalization ability. We fine-tune several LLMs on MedINST and
evaluate on MedINST32, showcasing enhanced cross-task generalization.Summary
AI-Generated Summary