ChatPaper.aiChatPaper

DistiLLM-2: 대조적 접근법을 통한 대형 언어 모델의 증류 성능 향상

DistiLLM-2: A Contrastive Approach Boosts the Distillation of LLMs

March 10, 2025
저자: Jongwoo Ko, Tianyi Chen, Sungnyun Kim, Tianyu Ding, Luming Liang, Ilya Zharkov, Se-Young Yun
cs.AI

초록

대규모 언어 모델(LLM)에서의 지식 증류가 성공적이었음에도 불구하고, 대부분의 기존 연구는 교사 모델과 학생 모델이 생성한 데이터에 동일한 손실 함수를 적용했습니다. 이러한 전략은 손실 함수와 데이터 유형 간의 시너지를 간과하여 학생 모델의 성능 향상을 최적화하지 못했습니다. 이를 해결하기 위해, 우리는 이러한 시너지를 활용하여 교사 응답의 가능성을 높이고 동시에 학생 응답의 가능성을 낮추는 대조적 접근법인 DistiLLM-2를 제안합니다. 우리의 광범위한 실험은 DistiLLM-2가 명령어 수행 및 코드 생성과 같은 다양한 작업에서 고성능 학생 모델을 구축할 뿐만 아니라, 선호도 정렬 및 시각-언어 확장과 같은 다양한 응용을 지원한다는 것을 보여줍니다. 이러한 결과는 다양한 데이터 유형에 걸쳐 교사 모델과 학생 모델을 효과적으로 정렬함으로써 LLM 지식 증류의 효율성을 향상시키는 대조적 접근법의 잠재력을 강조합니다.
English
Despite the success of distillation in large language models (LLMs), most prior work applies identical loss functions to both teacher- and student-generated data. These strategies overlook the synergy between loss formulations and data types, leading to a suboptimal performance boost in student models. To address this, we propose DistiLLM-2, a contrastive approach that simultaneously increases the likelihood of teacher responses and decreases that of student responses by harnessing this synergy. Our extensive experiments show that DistiLLM-2 not only builds high-performing student models across a wide range of tasks, including instruction-following and code generation, but also supports diverse applications, such as preference alignment and vision-language extensions. These findings highlight the potential of a contrastive approach to enhance the efficacy of LLM distillation by effectively aligning teacher and student models across varied data types.

Summary

AI-Generated Summary

PDF322March 11, 2025