Feinabstimmung großer Sprachmodelle mit menscheninspirierten Lernstrategien in der medizinischen Fragebeantwortung

Fine-tuning Large Language Models with Human-inspired Learning Strategies in Medical Question Answering

August 15, 2024
Autoren: Yushi Yang, Andrew M. Bean, Robert McCraith, Adam Mahdi
cs.AI

Zusammenfassung

Das Training von großen Sprachmodellen (Large Language Models, LLMs) verursacht erhebliche datenbezogene Kosten, was die Entwicklung dateneffizienter Trainingsmethoden durch optimierte Datenreihenfolge und Auswahl vorantreibt. Menschlich inspirierte Lernstrategien wie Curriculum Learning bieten Möglichkeiten für effizientes Training, indem Daten gemäß gängiger menschlicher Lernpraktiken organisiert werden. Obwohl Hinweise darauf vorliegen, dass Feinabstimmung mit Curriculum Learning die Leistung von LLMs bei Aufgaben zum Verständnis natürlicher Sprache verbessert, wird ihre Wirksamkeit in der Regel anhand eines einzelnen Modells bewertet. In dieser Arbeit erweitern wir frühere Forschung, indem wir sowohl curriculumbasierte als auch nicht-curriculumbasierte Lernstrategien über mehrere LLMs hinweg evaluieren, wobei menschlich definierte und automatisierte Datenetiketten für die medizinische Fragebeantwortung verwendet werden. Unsere Ergebnisse deuten auf einen moderaten Einfluss der Verwendung von menschlich inspirierten Lernstrategien für die Feinabstimmung von LLMs hin, mit maximalen Genauigkeitssteigerungen von 1,77 % pro Modell und 1,81 % pro Datensatz. Entscheidend ist, dass wir zeigen, dass die Wirksamkeit dieser Strategien je nach Modell-Datensatz-Kombinationen signifikant variiert, was betont, dass die Vorteile einer spezifischen menschlich inspirierten Strategie für die Feinabstimmung von LLMs nicht verallgemeinert werden können. Darüber hinaus finden wir Hinweise darauf, dass Curriculum Learning unter Verwendung von vom LLM definierten Frage-Schwierigkeiten besser abschneidet als menschlich definierte Schwierigkeiten, was das Potenzial der Verwendung von modellgenerierten Maßen für eine optimale Curriculumgestaltung hervorhebt.
English
Training Large Language Models (LLMs) incurs substantial data-related costs, motivating the development of data-efficient training methods through optimised data ordering and selection. Human-inspired learning strategies, such as curriculum learning, offer possibilities for efficient training by organising data according to common human learning practices. Despite evidence that fine-tuning with curriculum learning improves the performance of LLMs for natural language understanding tasks, its effectiveness is typically assessed using a single model. In this work, we extend previous research by evaluating both curriculum-based and non-curriculum-based learning strategies across multiple LLMs, using human-defined and automated data labels for medical question answering. Our results indicate a moderate impact of using human-inspired learning strategies for fine-tuning LLMs, with maximum accuracy gains of 1.77% per model and 1.81% per dataset. Crucially, we demonstrate that the effectiveness of these strategies varies significantly across different model-dataset combinations, emphasising that the benefits of a specific human-inspired strategy for fine-tuning LLMs do not generalise. Additionally, we find evidence that curriculum learning using LLM-defined question difficulty outperforms human-defined difficulty, highlighting the potential of using model-generated measures for optimal curriculum design.
PDF132November 26, 2024