Feinabstimmung großer Sprachmodelle mit menscheninspirierten Lernstrategien in der medizinischen Fragebeantwortung
Fine-tuning Large Language Models with Human-inspired Learning Strategies in Medical Question Answering
August 15, 2024
Autoren: Yushi Yang, Andrew M. Bean, Robert McCraith, Adam Mahdi
cs.AI
Zusammenfassung
Das Training von großen Sprachmodellen (Large Language Models, LLMs) verursacht erhebliche datenbezogene Kosten, was die Entwicklung dateneffizienter Trainingsmethoden durch optimierte Datenreihenfolge und Auswahl vorantreibt. Menschlich inspirierte Lernstrategien wie Curriculum Learning bieten Möglichkeiten für effizientes Training, indem Daten gemäß gängiger menschlicher Lernpraktiken organisiert werden. Obwohl Hinweise darauf vorliegen, dass Feinabstimmung mit Curriculum Learning die Leistung von LLMs bei Aufgaben zum Verständnis natürlicher Sprache verbessert, wird ihre Wirksamkeit in der Regel anhand eines einzelnen Modells bewertet. In dieser Arbeit erweitern wir frühere Forschung, indem wir sowohl curriculumbasierte als auch nicht-curriculumbasierte Lernstrategien über mehrere LLMs hinweg evaluieren, wobei menschlich definierte und automatisierte Datenetiketten für die medizinische Fragebeantwortung verwendet werden. Unsere Ergebnisse deuten auf einen moderaten Einfluss der Verwendung von menschlich inspirierten Lernstrategien für die Feinabstimmung von LLMs hin, mit maximalen Genauigkeitssteigerungen von 1,77 % pro Modell und 1,81 % pro Datensatz. Entscheidend ist, dass wir zeigen, dass die Wirksamkeit dieser Strategien je nach Modell-Datensatz-Kombinationen signifikant variiert, was betont, dass die Vorteile einer spezifischen menschlich inspirierten Strategie für die Feinabstimmung von LLMs nicht verallgemeinert werden können. Darüber hinaus finden wir Hinweise darauf, dass Curriculum Learning unter Verwendung von vom LLM definierten Frage-Schwierigkeiten besser abschneidet als menschlich definierte Schwierigkeiten, was das Potenzial der Verwendung von modellgenerierten Maßen für eine optimale Curriculumgestaltung hervorhebt.
English
Training Large Language Models (LLMs) incurs substantial data-related costs,
motivating the development of data-efficient training methods through optimised
data ordering and selection. Human-inspired learning strategies, such as
curriculum learning, offer possibilities for efficient training by organising
data according to common human learning practices. Despite evidence that
fine-tuning with curriculum learning improves the performance of LLMs for
natural language understanding tasks, its effectiveness is typically assessed
using a single model. In this work, we extend previous research by evaluating
both curriculum-based and non-curriculum-based learning strategies across
multiple LLMs, using human-defined and automated data labels for medical
question answering. Our results indicate a moderate impact of using
human-inspired learning strategies for fine-tuning LLMs, with maximum accuracy
gains of 1.77% per model and 1.81% per dataset. Crucially, we demonstrate that
the effectiveness of these strategies varies significantly across different
model-dataset combinations, emphasising that the benefits of a specific
human-inspired strategy for fine-tuning LLMs do not generalise. Additionally,
we find evidence that curriculum learning using LLM-defined question difficulty
outperforms human-defined difficulty, highlighting the potential of using
model-generated measures for optimal curriculum design.