Dr. LLaMA: 생성적 데이터 증강을 통해 도메인 특화 질의응답에서 소형 언어 모델 개선하기
Dr. LLaMA: Improving Small Language Models in Domain-Specific QA via Generative Data Augmentation
May 12, 2023
저자: Zhen Guo, Peiqi Wang, Yanwei Wang, Shangdi Yu
cs.AI
초록
대형 언어 모델(LLMs)은 자연어 처리 분야에서 상당한 진전을 이루었지만, 특히 도메인 특화 작업에서 모델 크기가 커짐에 따라 계산 비용과 비효율성 문제에 직면하고 있습니다. 반면, 소형 언어 모델(SLMs)은 제한된 용량과 학습 데이터로 인해 이러한 작업에서 어려움을 겪는 경우가 많습니다. 본 논문에서는 LLMs를 활용한 생성적 데이터 증강을 통해 SLMs의 성능을 개선하는 Dr. LLaMA 방법을 소개하며, 의학 질의응답 작업과 PubMedQA 데이터셋에 초점을 맞추고 있습니다. 연구 결과에 따르면, LLMs는 기존 질문-답변 쌍을 효과적으로 정제하고 다양화하여, 도메인 특화 QA 데이터셋에서 훨씬 더 작은 모델의 성능을 미세 조정 후 개선할 수 있음을 보여줍니다. 이 연구는 도메인 특화 질의응답을 위해 LLMs를 사용할 때의 과제를 강조하고, 이러한 한계를 해결하기 위한 잠재적인 연구 방향을 제시함으로써, 특수 목적을 위한 더 효율적이고 능력 있는 모델을 만드는 것을 궁극적인 목표로 합니다. 또한, 관심 있는 연구자들을 위해 코드를 공개하였습니다.
English
Large Language Models (LLMs) have made significant strides in natural
language processing but face challenges in terms of computational expense and
inefficiency as they grow in size, especially in domain-specific tasks. Small
Language Models (SLMs), on the other hand, often struggle in these tasks due to
limited capacity and training data. In this paper, we introduce Dr. LLaMA, a
method for improving SLMs through generative data augmentation using LLMs,
focusing on medical question-answering tasks and the PubMedQA dataset. Our
findings indicate that LLMs effectively refine and diversify existing
question-answer pairs, resulting in improved performance of a much smaller
model on domain-specific QA datasets after fine-tuning. This study highlights
the challenges of using LLMs for domain-specific question answering and
suggests potential research directions to address these limitations, ultimately
aiming to create more efficient and capable models for specialized
applications. We have also made our code available for interested researchers