ChatPaper.aiChatPaper

Fine-tuning van grote taalmodelen met mens-geïnspireerde leerstrategieën voor medische vraagbeantwoording

Fine-tuning Large Language Models with Human-inspired Learning Strategies in Medical Question Answering

August 15, 2024
Auteurs: Yushi Yang, Andrew M. Bean, Robert McCraith, Adam Mahdi
cs.AI

Samenvatting

Het trainen van grote taalmmodellen (LLM's) brengt aanzienlijke kosten met zich mee die gerelateerd zijn aan data, wat de ontwikkeling van data-efficiënte trainingsmethoden motiveert door middel van geoptimaliseerde data-ordening en -selectie. Mens-geïnspireerde leerstrategieën, zoals curriculumleren, bieden mogelijkheden voor efficiënte training door data te organiseren volgens gangbare menselijke leerpraktijken. Ondanks bewijs dat fine-tuning met curriculumleren de prestaties van LLM's voor taken op het gebied van natuurlijke taalverwerking verbetert, wordt de effectiviteit ervan doorgaans beoordeeld met behulp van één enkel model. In dit werk breiden we eerder onderzoek uit door zowel curriculumgebaseerde als niet-curriculumgebaseerde leerstrategieën te evalueren over meerdere LLM's, waarbij gebruik wordt gemaakt van door mensen gedefinieerde en geautomatiseerde datalabels voor medische vraagbeantwoording. Onze resultaten wijzen op een matige impact van het gebruik van mens-geïnspireerde leerstrategieën voor het fine-tunen van LLM's, met maximale nauwkeurigheidswinsten van 1,77% per model en 1,81% per dataset. Cruciaal is dat we aantonen dat de effectiviteit van deze strategieën aanzienlijk varieert tussen verschillende model-datasetcombinaties, wat benadrukt dat de voordelen van een specifieke mens-geïnspireerde strategie voor het fine-tunen van LLM's niet generaliseerbaar zijn. Daarnaast vinden we bewijs dat curriculumleren met door LLM's gedefinieerde vraagmoeilijkheid beter presteert dan door mensen gedefinieerde moeilijkheid, wat het potentieel onderstreept van het gebruik van model-gegenereerde maatstaven voor optimaal curriculumontwerp.
English
Training Large Language Models (LLMs) incurs substantial data-related costs, motivating the development of data-efficient training methods through optimised data ordering and selection. Human-inspired learning strategies, such as curriculum learning, offer possibilities for efficient training by organising data according to common human learning practices. Despite evidence that fine-tuning with curriculum learning improves the performance of LLMs for natural language understanding tasks, its effectiveness is typically assessed using a single model. In this work, we extend previous research by evaluating both curriculum-based and non-curriculum-based learning strategies across multiple LLMs, using human-defined and automated data labels for medical question answering. Our results indicate a moderate impact of using human-inspired learning strategies for fine-tuning LLMs, with maximum accuracy gains of 1.77% per model and 1.81% per dataset. Crucially, we demonstrate that the effectiveness of these strategies varies significantly across different model-dataset combinations, emphasising that the benefits of a specific human-inspired strategy for fine-tuning LLMs do not generalise. Additionally, we find evidence that curriculum learning using LLM-defined question difficulty outperforms human-defined difficulty, highlighting the potential of using model-generated measures for optimal curriculum design.
PDF132November 26, 2024