DistiLLM-2: Контрастный подход повышает эффективность дистилляции крупных языковых моделей
DistiLLM-2: A Contrastive Approach Boosts the Distillation of LLMs
March 10, 2025
Авторы: Jongwoo Ko, Tianyi Chen, Sungnyun Kim, Tianyu Ding, Luming Liang, Ilya Zharkov, Se-Young Yun
cs.AI
Аннотация
Несмотря на успех дистилляции в крупных языковых моделях (LLM), большинство предыдущих работ применяют одинаковые функции потерь как к данным, сгенерированным учителем, так и к данным, сгенерированным учеником. Эти стратегии упускают из виду синергию между формулировками потерь и типами данных, что приводит к неоптимальному повышению производительности моделей-учеников. Чтобы решить эту проблему, мы предлагаем DistiLLM-2 — контрастный подход, который одновременно увеличивает вероятность ответов учителя и уменьшает вероятность ответов ученика, используя эту синергию. Наши обширные эксперименты показывают, что DistiLLM-2 не только создает высокопроизводительные модели-ученики для широкого спектра задач, включая выполнение инструкций и генерацию кода, но также поддерживает разнообразные приложения, такие как согласование предпочтений и расширения для работы с визуально-языковыми данными. Эти результаты подчеркивают потенциал контрастного подхода для повышения эффективности дистилляции LLM за счет эффективного согласования моделей учителя и ученика на различных типах данных.
English
Despite the success of distillation in large language models (LLMs), most
prior work applies identical loss functions to both teacher- and
student-generated data. These strategies overlook the synergy between loss
formulations and data types, leading to a suboptimal performance boost in
student models. To address this, we propose DistiLLM-2, a contrastive approach
that simultaneously increases the likelihood of teacher responses and decreases
that of student responses by harnessing this synergy. Our extensive experiments
show that DistiLLM-2 not only builds high-performing student models across a
wide range of tasks, including instruction-following and code generation, but
also supports diverse applications, such as preference alignment and
vision-language extensions. These findings highlight the potential of a
contrastive approach to enhance the efficacy of LLM distillation by effectively
aligning teacher and student models across varied data types.Summary
AI-Generated Summary