ChatPaper.aiChatPaper

PLaD: 가상 선호도 쌍을 활용한 선호도 기반 대규모 언어 모델 증류

PLaD: Preference-based Large Language Model Distillation with Pseudo-Preference Pairs

June 5, 2024
저자: Rongzhi Zhang, Jiaming Shen, Tianqi Liu, Haorui Wang, Zhen Qin, Feng Han, Jialu Liu, Simon Baumgartner, Michael Bendersky, Chao Zhang
cs.AI

초록

대규모 언어 모델(LLMs)은 다양한 작업에서 인상적인 성능을 보여주고 있지만, 방대한 매개변수 크기로 인해 자원이 제한된 환경에서의 적용이 어렵습니다. 지식 증류(KD)는 대형 교사 모델의 전문성을 소형 학생 모델로 전이함으로써 이러한 문제에 대한 실용적인 해결책을 제공합니다. 그러나 전통적인 KD 기법은 LLMs에 적용할 때 몇 가지 특정한 문제에 직면하는데, 이는 LLM 출력에 대한 접근 제한, 교사와 학생 모델 간의 상당한 역량 차이, 그리고 상속된 잘못된 보정 문제 등을 포함합니다. 본 연구에서는 이러한 문제를 해결하기 위해 새로운 선호도 기반 LLM 증류 프레임워크인 PLaD를 제안합니다. PLaD는 교사와 학생 모델 간의 역량 차이를 활용하여 교사 출력이 학생 출력보다 선호되는 가상의 선호도 쌍을 생성합니다. 그런 다음, PLaD는 순위 손실을 활용하여 학생 모델의 시퀀스 가능성 추정을 재보정함으로써, 학생 모델이 단순히 교사를 모방하는 대신 출력의 상대적 품질을 이해하는 데 초점을 맞추도록 유도합니다. PLaD는 교사 LLM의 내부 상태에 대한 접근 필요성을 우회하고, 학생 모델의 표현력 한계를 해결하며, 학생 모델의 잘못된 보정 문제를 완화합니다. 두 가지 시퀀스 생성 작업과 다양한 LLMs를 대상으로 한 광범위한 실험을 통해, 우리가 제안한 PLaD 프레임워크의 효과성을 입증합니다.
English
Large Language Models (LLMs) have exhibited impressive capabilities in various tasks, yet their vast parameter sizes restrict their applicability in resource-constrained settings. Knowledge distillation (KD) offers a viable solution by transferring expertise from large teacher models to compact student models. However, traditional KD techniques face specific challenges when applied to LLMs, including restricted access to LLM outputs, significant teacher-student capacity gaps, and the inherited mis-calibration issue. In this work, we present PLaD, a novel preference-based LLM distillation framework. PLaD exploits the teacher-student capacity discrepancy to generate pseudo-preference pairs where teacher outputs are preferred over student outputs. Then, PLaD leverages a ranking loss to re-calibrate student's estimation of sequence likelihood, which steers the student's focus towards understanding the relative quality of outputs instead of simply imitating the teacher. PLaD bypasses the need for access to teacher LLM's internal states, tackles the student's expressivity limitations, and mitigates the student mis-calibration issue. Through extensive experiments on two sequence generation tasks and with various LLMs, we demonstrate the effectiveness of our proposed PLaD framework.

Summary

AI-Generated Summary

PDF111December 12, 2024