ChatPaper.aiChatPaper

MedINST: Metaconjunto de Datos de Instrucciones Biomédicas

MedINST: Meta Dataset of Biomedical Instructions

October 17, 2024
Autores: Wenhan Han, Meng Fang, Zihan Zhang, Yu Yin, Zirui Song, Ling Chen, Mykola Pechenizkiy, Qingyu Chen
cs.AI

Resumen

La integración de técnicas de modelos de lenguaje grandes (LLM, por sus siglas en inglés) en el campo del análisis médico ha traído avances significativos, sin embargo, la escasez de conjuntos de datos grandes, diversos y bien anotados sigue siendo un desafío importante. Los datos y tareas médicas, que varían en formato, tamaño y otros parámetros, requieren un extenso preprocesamiento y estandarización para su uso efectivo en el entrenamiento de LLMs. Para abordar estos desafíos, presentamos MedINST, el Meta Conjunto de Datos de Instrucciones Biomédicas, un novedoso metaconjunto de datos instruccionales multi-dominio y multi-tarea. MedINST consta de 133 tareas de procesamiento de lenguaje natural biomédico y más de 7 millones de muestras de entrenamiento, convirtiéndolo en el conjunto de datos de instrucciones biomédicas más completo hasta la fecha. Utilizando MedINST como el metaconjunto de datos, creamos MedINST32, un desafiante punto de referencia con diferentes niveles de dificultad de tarea con el objetivo de evaluar la capacidad de generalización de los LLMs. Ajustamos varios LLMs en MedINST y evaluamos en MedINST32, demostrando una mejorada generalización entre tareas.
English
The integration of large language model (LLM) techniques in the field of medical analysis has brought about significant advancements, yet the scarcity of large, diverse, and well-annotated datasets remains a major challenge. Medical data and tasks, which vary in format, size, and other parameters, require extensive preprocessing and standardization for effective use in training LLMs. To address these challenges, we introduce MedINST, the Meta Dataset of Biomedical Instructions, a novel multi-domain, multi-task instructional meta-dataset. MedINST comprises 133 biomedical NLP tasks and over 7 million training samples, making it the most comprehensive biomedical instruction dataset to date. Using MedINST as the meta dataset, we curate MedINST32, a challenging benchmark with different task difficulties aiming to evaluate LLMs' generalization ability. We fine-tune several LLMs on MedINST and evaluate on MedINST32, showcasing enhanced cross-task generalization.

Summary

AI-Generated Summary

PDF72November 16, 2024