MedINST: Metaconjunto de Datos de Instrucciones Biomédicas
MedINST: Meta Dataset of Biomedical Instructions
October 17, 2024
Autores: Wenhan Han, Meng Fang, Zihan Zhang, Yu Yin, Zirui Song, Ling Chen, Mykola Pechenizkiy, Qingyu Chen
cs.AI
Resumen
La integración de técnicas de modelos de lenguaje grandes (LLM, por sus siglas en inglés) en el campo del análisis médico ha traído avances significativos, sin embargo, la escasez de conjuntos de datos grandes, diversos y bien anotados sigue siendo un desafío importante. Los datos y tareas médicas, que varían en formato, tamaño y otros parámetros, requieren un extenso preprocesamiento y estandarización para su uso efectivo en el entrenamiento de LLMs. Para abordar estos desafíos, presentamos MedINST, el Meta Conjunto de Datos de Instrucciones Biomédicas, un novedoso metaconjunto de datos instruccionales multi-dominio y multi-tarea. MedINST consta de 133 tareas de procesamiento de lenguaje natural biomédico y más de 7 millones de muestras de entrenamiento, convirtiéndolo en el conjunto de datos de instrucciones biomédicas más completo hasta la fecha. Utilizando MedINST como el metaconjunto de datos, creamos MedINST32, un desafiante punto de referencia con diferentes niveles de dificultad de tarea con el objetivo de evaluar la capacidad de generalización de los LLMs. Ajustamos varios LLMs en MedINST y evaluamos en MedINST32, demostrando una mejorada generalización entre tareas.
English
The integration of large language model (LLM) techniques in the field of
medical analysis has brought about significant advancements, yet the scarcity
of large, diverse, and well-annotated datasets remains a major challenge.
Medical data and tasks, which vary in format, size, and other parameters,
require extensive preprocessing and standardization for effective use in
training LLMs. To address these challenges, we introduce MedINST, the Meta
Dataset of Biomedical Instructions, a novel multi-domain, multi-task
instructional meta-dataset. MedINST comprises 133 biomedical NLP tasks and over
7 million training samples, making it the most comprehensive biomedical
instruction dataset to date. Using MedINST as the meta dataset, we curate
MedINST32, a challenging benchmark with different task difficulties aiming to
evaluate LLMs' generalization ability. We fine-tune several LLMs on MedINST and
evaluate on MedINST32, showcasing enhanced cross-task generalization.Summary
AI-Generated Summary