Fine-tuning van grote taalmodelen met mens-geïnspireerde leerstrategieën voor medische vraagbeantwoording
Fine-tuning Large Language Models with Human-inspired Learning Strategies in Medical Question Answering
August 15, 2024
Auteurs: Yushi Yang, Andrew M. Bean, Robert McCraith, Adam Mahdi
cs.AI
Samenvatting
Het trainen van grote taalmmodellen (LLM's) brengt aanzienlijke kosten met zich mee die gerelateerd zijn aan data, wat de ontwikkeling van data-efficiënte trainingsmethoden motiveert door middel van geoptimaliseerde data-ordening en -selectie. Mens-geïnspireerde leerstrategieën, zoals curriculumleren, bieden mogelijkheden voor efficiënte training door data te organiseren volgens gangbare menselijke leerpraktijken. Ondanks bewijs dat fine-tuning met curriculumleren de prestaties van LLM's voor taken op het gebied van natuurlijke taalverwerking verbetert, wordt de effectiviteit ervan doorgaans beoordeeld met behulp van één enkel model. In dit werk breiden we eerder onderzoek uit door zowel curriculumgebaseerde als niet-curriculumgebaseerde leerstrategieën te evalueren over meerdere LLM's, waarbij gebruik wordt gemaakt van door mensen gedefinieerde en geautomatiseerde datalabels voor medische vraagbeantwoording. Onze resultaten wijzen op een matige impact van het gebruik van mens-geïnspireerde leerstrategieën voor het fine-tunen van LLM's, met maximale nauwkeurigheidswinsten van 1,77% per model en 1,81% per dataset. Cruciaal is dat we aantonen dat de effectiviteit van deze strategieën aanzienlijk varieert tussen verschillende model-datasetcombinaties, wat benadrukt dat de voordelen van een specifieke mens-geïnspireerde strategie voor het fine-tunen van LLM's niet generaliseerbaar zijn. Daarnaast vinden we bewijs dat curriculumleren met door LLM's gedefinieerde vraagmoeilijkheid beter presteert dan door mensen gedefinieerde moeilijkheid, wat het potentieel onderstreept van het gebruik van model-gegenereerde maatstaven voor optimaal curriculumontwerp.
English
Training Large Language Models (LLMs) incurs substantial data-related costs,
motivating the development of data-efficient training methods through optimised
data ordering and selection. Human-inspired learning strategies, such as
curriculum learning, offer possibilities for efficient training by organising
data according to common human learning practices. Despite evidence that
fine-tuning with curriculum learning improves the performance of LLMs for
natural language understanding tasks, its effectiveness is typically assessed
using a single model. In this work, we extend previous research by evaluating
both curriculum-based and non-curriculum-based learning strategies across
multiple LLMs, using human-defined and automated data labels for medical
question answering. Our results indicate a moderate impact of using
human-inspired learning strategies for fine-tuning LLMs, with maximum accuracy
gains of 1.77% per model and 1.81% per dataset. Crucially, we demonstrate that
the effectiveness of these strategies varies significantly across different
model-dataset combinations, emphasising that the benefits of a specific
human-inspired strategy for fine-tuning LLMs do not generalise. Additionally,
we find evidence that curriculum learning using LLM-defined question difficulty
outperforms human-defined difficulty, highlighting the potential of using
model-generated measures for optimal curriculum design.