의료 질문 응답에서 인간을 모방한 학습 전략을 사용한 대규모 언어 모델 파인 튜닝
Fine-tuning Large Language Models with Human-inspired Learning Strategies in Medical Question Answering
August 15, 2024
저자: Yushi Yang, Andrew M. Bean, Robert McCraith, Adam Mahdi
cs.AI
초록
대규모 언어 모델(LLM) 훈련은 상당한 데이터 관련 비용이 발생하며, 최적화된 데이터 순서 및 선택을 통해 데이터 효율적인 훈련 방법 개발을 촉진하고 있다. 교육 과정 학습과 같은 인간 영감을 받은 학습 전략은 일반적인 인간 학습 관행에 따라 데이터를 구성함으로써 효율적인 훈련 가능성을 제공한다. 교육 과정 학습을 통한 세밀 조정이 자연어 이해 작업에 대한 LLM의 성능을 향상시킨다는 증거에도 불구하고, 그 효과는 일반적으로 단일 모델을 사용하여 평가된다. 본 연구에서는 의료 질문 응답을 위해 인간 정의 및 자동화된 데이터 레이블을 사용하여 다중 LLM을 통해 교육 과정 기반 및 비교과정 기반 학습 전략을 평가함으로써 이전 연구를 확장한다. 결과는 LLM 세밀 조정에 인간 영감을 받은 학습 전략을 사용하는 것이 중간 정도의 영향을 미치며, 모델 당 최대 정확도 향상률은 1.77%, 데이터셋 당 1.81%이라는 것을 나타낸다. 중요한 점은 이러한 전략의 효과가 서로 다른 모델-데이터셋 조합에 따라 상당히 다르다는 것을 강조하며, LLM 세밀 조정에 대한 특정 인간 영감을 받은 전략의 이점이 일반화되지 않는다는 것을 입증한다. 게다가, LLM이 정의한 질문 난이도를 사용한 교육 과정 학습이 인간이 정의한 난이도보다 우월함을 입증하는 증거를 찾아, 최적 교육 과정 설계에 모델 생성 측정값을 사용하는 잠재력을 강조한다.
English
Training Large Language Models (LLMs) incurs substantial data-related costs,
motivating the development of data-efficient training methods through optimised
data ordering and selection. Human-inspired learning strategies, such as
curriculum learning, offer possibilities for efficient training by organising
data according to common human learning practices. Despite evidence that
fine-tuning with curriculum learning improves the performance of LLMs for
natural language understanding tasks, its effectiveness is typically assessed
using a single model. In this work, we extend previous research by evaluating
both curriculum-based and non-curriculum-based learning strategies across
multiple LLMs, using human-defined and automated data labels for medical
question answering. Our results indicate a moderate impact of using
human-inspired learning strategies for fine-tuning LLMs, with maximum accuracy
gains of 1.77% per model and 1.81% per dataset. Crucially, we demonstrate that
the effectiveness of these strategies varies significantly across different
model-dataset combinations, emphasising that the benefits of a specific
human-inspired strategy for fine-tuning LLMs do not generalise. Additionally,
we find evidence that curriculum learning using LLM-defined question difficulty
outperforms human-defined difficulty, highlighting the potential of using
model-generated measures for optimal curriculum design.Summary
AI-Generated Summary