ChatPaper.aiChatPaper

PLaD: 疑似選好ペアを用いた選好ベース大規模言語モデル蒸留

PLaD: Preference-based Large Language Model Distillation with Pseudo-Preference Pairs

June 5, 2024
著者: Rongzhi Zhang, Jiaming Shen, Tianqi Liu, Haorui Wang, Zhen Qin, Feng Han, Jialu Liu, Simon Baumgartner, Michael Bendersky, Chao Zhang
cs.AI

要旨

大規模言語モデル(LLM)は様々なタスクで印象的な能力を発揮しているが、その膨大なパラメータサイズのため、リソースが制約された環境での適用が制限されている。知識蒸留(KD)は、大規模な教師モデルからコンパクトな学生モデルへ専門知識を転送する有効な解決策を提供する。しかし、従来のKD技術はLLMに適用する際に特定の課題に直面しており、LLMの出力へのアクセス制限、教師と学生の能力差の大きさ、そして継承される誤較正問題などが挙げられる。本研究では、新たな選好ベースのLLM蒸留フレームワークであるPLaDを提案する。PLaDは、教師と学生の能力差を利用して、教師の出力が学生の出力よりも好まれる疑似選好ペアを生成する。その後、PLaDはランキング損失を活用して、学生のシーケンス尤度の推定を再較正し、学生が単に教師を模倣するのではなく、出力の相対的な品質を理解することに焦点を当てるよう導く。PLaDは、教師LLMの内部状態へのアクセスを必要とせず、学生の表現力の限界に対処し、学生の誤較正問題を緩和する。2つのシーケンス生成タスクと様々なLLMを用いた広範な実験を通じて、提案するPLaDフレームワークの有効性を実証する。
English
Large Language Models (LLMs) have exhibited impressive capabilities in various tasks, yet their vast parameter sizes restrict their applicability in resource-constrained settings. Knowledge distillation (KD) offers a viable solution by transferring expertise from large teacher models to compact student models. However, traditional KD techniques face specific challenges when applied to LLMs, including restricted access to LLM outputs, significant teacher-student capacity gaps, and the inherited mis-calibration issue. In this work, we present PLaD, a novel preference-based LLM distillation framework. PLaD exploits the teacher-student capacity discrepancy to generate pseudo-preference pairs where teacher outputs are preferred over student outputs. Then, PLaD leverages a ranking loss to re-calibrate student's estimation of sequence likelihood, which steers the student's focus towards understanding the relative quality of outputs instead of simply imitating the teacher. PLaD bypasses the need for access to teacher LLM's internal states, tackles the student's expressivity limitations, and mitigates the student mis-calibration issue. Through extensive experiments on two sequence generation tasks and with various LLMs, we demonstrate the effectiveness of our proposed PLaD framework.

Summary

AI-Generated Summary

PDF111December 12, 2024