医療質問応答における人間に着想を得た学習戦略を用いた大規模言語モデルのファインチューニング
Fine-tuning Large Language Models with Human-inspired Learning Strategies in Medical Question Answering
August 15, 2024
著者: Yushi Yang, Andrew M. Bean, Robert McCraith, Adam Mahdi
cs.AI
要旨
大規模言語モデル(LLM)の訓練には多大なデータ関連コストがかかるため、最適化されたデータ順序付けと選択を通じたデータ効率の良い訓練手法の開発が求められています。人間の学習戦略に着想を得たカリキュラム学習などの手法は、一般的な人間の学習慣習に従ってデータを整理することで効率的な訓練の可能性を提供します。カリキュラム学習を用いたファインチューニングが自然言語理解タスクにおけるLLMの性能を向上させるという証拠があるにもかかわらず、その有効性は通常単一のモデルを用いて評価されています。本研究では、医療質問応答タスクにおいて人間が定義したラベルと自動生成されたラベルを使用し、複数のLLMにわたってカリキュラムベースおよび非カリキュラムベースの学習戦略を評価することで、先行研究を拡張します。結果は、人間の学習戦略に着想を得た手法を用いたファインチューニングがLLMに中程度の影響を与え、モデルごとに最大1.77%、データセットごとに最大1.81%の精度向上をもたらすことを示しています。重要なことに、これらの戦略の有効性は異なるモデルとデータセットの組み合わせによって大きく異なり、特定の人間の学習戦略に着想を得た手法の利点が一般化しないことを強調しています。さらに、LLMが定義した質問の難易度を用いたカリキュラム学習が人間が定義した難易度を上回るという証拠が見つかり、最適なカリキュラム設計のためにモデル生成の指標を使用する可能性が示唆されています。
English
Training Large Language Models (LLMs) incurs substantial data-related costs,
motivating the development of data-efficient training methods through optimised
data ordering and selection. Human-inspired learning strategies, such as
curriculum learning, offer possibilities for efficient training by organising
data according to common human learning practices. Despite evidence that
fine-tuning with curriculum learning improves the performance of LLMs for
natural language understanding tasks, its effectiveness is typically assessed
using a single model. In this work, we extend previous research by evaluating
both curriculum-based and non-curriculum-based learning strategies across
multiple LLMs, using human-defined and automated data labels for medical
question answering. Our results indicate a moderate impact of using
human-inspired learning strategies for fine-tuning LLMs, with maximum accuracy
gains of 1.77% per model and 1.81% per dataset. Crucially, we demonstrate that
the effectiveness of these strategies varies significantly across different
model-dataset combinations, emphasising that the benefits of a specific
human-inspired strategy for fine-tuning LLMs do not generalise. Additionally,
we find evidence that curriculum learning using LLM-defined question difficulty
outperforms human-defined difficulty, highlighting the potential of using
model-generated measures for optimal curriculum design.Summary
AI-Generated Summary