Affinage des grands modèles de langage avec des stratégies d'apprentissage inspirées de l'humain pour la réponse aux questions médicales
Fine-tuning Large Language Models with Human-inspired Learning Strategies in Medical Question Answering
August 15, 2024
Auteurs: Yushi Yang, Andrew M. Bean, Robert McCraith, Adam Mahdi
cs.AI
Résumé
L'entraînement des grands modèles de langage (LLMs) engendre des coûts substantiels liés aux données, ce qui motive le développement de méthodes d'entraînement efficaces en termes de données grâce à l'optimisation de l'ordonnancement et de la sélection des données. Les stratégies d'apprentissage inspirées de l'humain, telles que l'apprentissage curriculaire, offrent des possibilités pour un entraînement efficace en organisant les données selon les pratiques courantes d'apprentissage humain. Bien que des preuves montrent que le fine-tuning avec l'apprentissage curriculaire améliore les performances des LLMs pour les tâches de compréhension du langage naturel, son efficacité est généralement évaluée à l'aide d'un seul modèle. Dans ce travail, nous étendons les recherches précédentes en évaluant à la fois les stratégies d'apprentissage basées sur un curriculum et celles qui n'en utilisent pas, à travers plusieurs LLMs, en utilisant des étiquettes de données définies par l'humain et automatisées pour la réponse à des questions médicales. Nos résultats indiquent un impact modéré de l'utilisation de stratégies d'apprentissage inspirées de l'humain pour le fine-tuning des LLMs, avec des gains de précision maximaux de 1,77 % par modèle et 1,81 % par jeu de données. De manière cruciale, nous démontrons que l'efficacité de ces stratégies varie considérablement selon les différentes combinaisons modèle-jeu de données, soulignant que les avantages d'une stratégie spécifique inspirée de l'humain pour le fine-tuning des LLMs ne se généralisent pas. De plus, nous trouvons des preuves que l'apprentissage curriculaire utilisant la difficulté des questions définie par le LLM surpasse celle définie par l'humain, mettant en lumière le potentiel de l'utilisation de mesures générées par le modèle pour une conception optimale du curriculum.
English
Training Large Language Models (LLMs) incurs substantial data-related costs,
motivating the development of data-efficient training methods through optimised
data ordering and selection. Human-inspired learning strategies, such as
curriculum learning, offer possibilities for efficient training by organising
data according to common human learning practices. Despite evidence that
fine-tuning with curriculum learning improves the performance of LLMs for
natural language understanding tasks, its effectiveness is typically assessed
using a single model. In this work, we extend previous research by evaluating
both curriculum-based and non-curriculum-based learning strategies across
multiple LLMs, using human-defined and automated data labels for medical
question answering. Our results indicate a moderate impact of using
human-inspired learning strategies for fine-tuning LLMs, with maximum accuracy
gains of 1.77% per model and 1.81% per dataset. Crucially, we demonstrate that
the effectiveness of these strategies varies significantly across different
model-dataset combinations, emphasising that the benefits of a specific
human-inspired strategy for fine-tuning LLMs do not generalise. Additionally,
we find evidence that curriculum learning using LLM-defined question difficulty
outperforms human-defined difficulty, highlighting the potential of using
model-generated measures for optimal curriculum design.Summary
AI-Generated Summary