ChatPaper.aiChatPaper

MedINST: Мета набор данных биомедицинских инструкций

MedINST: Meta Dataset of Biomedical Instructions

October 17, 2024
Авторы: Wenhan Han, Meng Fang, Zihan Zhang, Yu Yin, Zirui Song, Ling Chen, Mykola Pechenizkiy, Qingyu Chen
cs.AI

Аннотация

Интеграция техник больших языковых моделей (LLM) в области медицинского анализа привела к значительным достижениям, однако недостаток больших, разнообразных и хорошо аннотированных наборов данных остается основным вызовом. Медицинские данные и задачи, которые различаются по формату, размеру и другим параметрам, требуют обширной предварительной обработки и стандартизации для эффективного использования при обучении LLM. Для решения этих проблем мы представляем MedINST, Мета-набор данных биомедицинских инструкций, новый мультидоменный, мультизадачный инструкционный мета-набор данных. MedINST включает в себя 133 биомедицинские задачи по обработке естественного языка и более 7 миллионов обучающих примеров, что делает его наиболее полным набором данных для биомедицинских инструкций на сегодняшний день. Используя MedINST в качестве мета-набора данных, мы создаем MedINST32, сложный бенчмарк с разными уровнями сложности задач с целью оценить способность обобщения LLM. Мы донастраиваем несколько LLM на MedINST и оцениваем на MedINST32, демонстрируя улучшенное обобщение между задачами.
English
The integration of large language model (LLM) techniques in the field of medical analysis has brought about significant advancements, yet the scarcity of large, diverse, and well-annotated datasets remains a major challenge. Medical data and tasks, which vary in format, size, and other parameters, require extensive preprocessing and standardization for effective use in training LLMs. To address these challenges, we introduce MedINST, the Meta Dataset of Biomedical Instructions, a novel multi-domain, multi-task instructional meta-dataset. MedINST comprises 133 biomedical NLP tasks and over 7 million training samples, making it the most comprehensive biomedical instruction dataset to date. Using MedINST as the meta dataset, we curate MedINST32, a challenging benchmark with different task difficulties aiming to evaluate LLMs' generalization ability. We fine-tune several LLMs on MedINST and evaluate on MedINST32, showcasing enhanced cross-task generalization.

Summary

AI-Generated Summary

PDF72November 16, 2024