ChatPaper.aiChatPaper

언어 모델의 품질 향상 및 압축을 위한 공동 학습 및 공동 증류

Co-training and Co-distillation for Quality Improvement and Compression of Language Models

November 6, 2023
저자: Hayeon Lee, Rui Hou, Jongpil Kim, Davis Liang, Hongbo Zhang, Sung Ju Hwang, Alexander Min
cs.AI

초록

지식 증류(Knowledge Distillation, KD)는 계산 비용이 많이 드는 사전 학습된 언어 모델(Pre-trained Language Models, PLMs)의 지식을 더 작은 모델로 전이함으로써 이를 압축하고, 자원이 제한적이거나 실시간 환경에서의 사용을 가능하게 합니다. 그러나 대부분의 작은 모델은 원래의 더 큰 모델의 성능을 넘어서지 못하여, 추론 속도를 개선하기 위해 성능을 희생하는 결과를 초래합니다. 이 문제를 해결하기 위해, 우리는 두 모델을 동시에 학습시키면서 상호적으로 지식을 증류함으로써 성능과 추론 속도를 함께 개선하는 새로운 프레임워크인 공동 학습 및 공동 증류(Co-Training and Co-Distillation, CTCD)를 제안합니다. CTCD 프레임워크는 두 가지 중요한 발견을 바탕으로 이를 성공적으로 달성합니다: 1) 공동 학습 중에 작은 모델에서 큰 모델로 지식을 증류하면 큰 모델의 성능이 향상됩니다. 2) 큰 모델의 향상된 성능은 작은 모델의 성능을 더욱 향상시킵니다. CTCD 프레임워크는 기존의 아키텍처 설계나 데이터 증강과 같은 기법과 결합하여 단방향 KD 방법을 대체함으로써 추가적인 성능 개선을 달성할 수 있는 가능성을 보여줍니다. 광범위한 절제 연구는 CTCD의 효과를 입증하며, CTCD로 증류된 작은 모델은 GLUE 벤치마크에서 원래의 더 큰 모델을 1.66이라는 상당한 차이로 능가합니다.
English
Knowledge Distillation (KD) compresses computationally expensive pre-trained language models (PLMs) by transferring their knowledge to smaller models, allowing their use in resource-constrained or real-time settings. However, most smaller models fail to surpass the performance of the original larger model, resulting in sacrificing performance to improve inference speed. To address this issue, we propose Co-Training and Co-Distillation (CTCD), a novel framework that improves performance and inference speed together by co-training two models while mutually distilling knowledge. The CTCD framework successfully achieves this based on two significant findings: 1) Distilling knowledge from the smaller model to the larger model during co-training improves the performance of the larger model. 2) The enhanced performance of the larger model further boosts the performance of the smaller model. The CTCD framework shows promise as it can be combined with existing techniques like architecture design or data augmentation, replacing one-way KD methods, to achieve further performance improvement. Extensive ablation studies demonstrate the effectiveness of CTCD, and the small model distilled by CTCD outperforms the original larger model by a significant margin of 1.66 on the GLUE benchmark.
PDF71December 15, 2024