MedINST: Metaconjunto de Dados de Instruções Biomédicas
MedINST: Meta Dataset of Biomedical Instructions
October 17, 2024
Autores: Wenhan Han, Meng Fang, Zihan Zhang, Yu Yin, Zirui Song, Ling Chen, Mykola Pechenizkiy, Qingyu Chen
cs.AI
Resumo
A integração de técnicas de grandes modelos de linguagem (LLM) no campo da análise médica tem trazido avanços significativos, no entanto, a escassez de conjuntos de dados grandes, diversos e bem anotados permanece um desafio importante. Dados e tarefas médicas, que variam em formato, tamanho e outros parâmetros, requerem extenso pré-processamento e padronização para uso eficaz no treinamento de LLMs. Para enfrentar esses desafios, apresentamos o MedINST, o Metaconjunto de Instruções Biomédicas, um novo metaconjunto de instruções multidomínio e multitarefa. O MedINST é composto por 133 tarefas de PNL biomédica e mais de 7 milhões de amostras de treinamento, tornando-o o conjunto de dados de instruções biomédicas mais abrangente até o momento. Usando o MedINST como metaconjunto de dados, curamos o MedINST32, um benchmark desafiador com diferentes níveis de dificuldade de tarefa, com o objetivo de avaliar a capacidade de generalização dos LLMs. Realizamos ajustes finos em vários LLMs no MedINST e avaliamos no MedINST32, demonstrando uma generalização aprimorada entre tarefas.
English
The integration of large language model (LLM) techniques in the field of
medical analysis has brought about significant advancements, yet the scarcity
of large, diverse, and well-annotated datasets remains a major challenge.
Medical data and tasks, which vary in format, size, and other parameters,
require extensive preprocessing and standardization for effective use in
training LLMs. To address these challenges, we introduce MedINST, the Meta
Dataset of Biomedical Instructions, a novel multi-domain, multi-task
instructional meta-dataset. MedINST comprises 133 biomedical NLP tasks and over
7 million training samples, making it the most comprehensive biomedical
instruction dataset to date. Using MedINST as the meta dataset, we curate
MedINST32, a challenging benchmark with different task difficulties aiming to
evaluate LLMs' generalization ability. We fine-tune several LLMs on MedINST and
evaluate on MedINST32, showcasing enhanced cross-task generalization.Summary
AI-Generated Summary