ChatPaper.aiChatPaper

DDK: 효율적인 대규모 언어 모델을 위한 도메인 지식 증류

DDK: Distilling Domain Knowledge for Efficient Large Language Models

July 23, 2024
저자: Jiaheng Liu, Chenchen Zhang, Jinyang Guo, Yuanxing Zhang, Haoran Que, Ken Deng, Zhiqi Bai, Jie Liu, Ge Zhang, Jiakai Wang, Yanan Wu, Congnan Liu, Wenbo Su, Jiamang Wang, Lin Qu, Bo Zheng
cs.AI

초록

대규모 언어 모델(LLM)이 다양한 응용 분야에서 고급 지능 능력을 보여주고 있음에도 불구하고, 여전히 상당한 계산 및 저장 요구 사항에 직면해 있습니다. 지식 증류(Knowledge Distillation, KD)는 고성능 LLM(즉, 교사 모델)의 지식을 전달하여 더 작은 LLM(즉, 학생 모델)의 성능을 향상시키는 효과적인 전략으로 부상했습니다. LLM 증류의 일반적인 기법은 블랙박스 모델 API를 사용하여 고품질의 사전 학습 및 정렬된 데이터셋을 생성하거나, 화이트박스 증류를 통해 손실 함수를 변경하여 교사 LLM의 지식을 더 잘 전달하는 방법을 사용합니다. 그러나 이러한 방법들은 학생과 교사 LLM 간의 도메인별 지식 차이를 무시합니다. 이로 인해 성능 격차가 최소인 도메인에 과도하게 초점이 맞춰지고, 격차가 큰 도메인에는 충분한 주의가 기울여지지 않아 전체 성능이 저하됩니다. 본 논문에서는 DDK라는 새로운 LLM 증류 프레임워크를 소개합니다. DDK는 교사와 학생 모델 간의 도메인 성능 차이에 따라 증류 데이터셋의 구성을 부드럽게 동적으로 조정하여 증류 과정을 더 안정적이고 효과적으로 만듭니다. 광범위한 평가 결과, DDK는 학생 모델의 성능을 크게 향상시키며, 지속적으로 사전 학습된 베이스라인과 기존의 지식 증류 방법들을 큰 차이로 능가하는 것으로 나타났습니다.
English
Despite the advanced intelligence abilities of large language models (LLMs) in various applications, they still face significant computational and storage demands. Knowledge Distillation (KD) has emerged as an effective strategy to improve the performance of a smaller LLM (i.e., the student model) by transferring knowledge from a high-performing LLM (i.e., the teacher model). Prevailing techniques in LLM distillation typically use a black-box model API to generate high-quality pretrained and aligned datasets, or utilize white-box distillation by altering the loss function to better transfer knowledge from the teacher LLM. However, these methods ignore the knowledge differences between the student and teacher LLMs across domains. This results in excessive focus on domains with minimal performance gaps and insufficient attention to domains with large gaps, reducing overall performance. In this paper, we introduce a new LLM distillation framework called DDK, which dynamically adjusts the composition of the distillation dataset in a smooth manner according to the domain performance differences between the teacher and student models, making the distillation process more stable and effective. Extensive evaluations show that DDK significantly improves the performance of student models, outperforming both continuously pretrained baselines and existing knowledge distillation methods by a large margin.

Summary

AI-Generated Summary

PDF222November 28, 2024