DistiLLM-2: Uma Abordagem Contrastiva Impulsiona a Destilação de LLMs
DistiLLM-2: A Contrastive Approach Boosts the Distillation of LLMs
March 10, 2025
Autores: Jongwoo Ko, Tianyi Chen, Sungnyun Kim, Tianyu Ding, Luming Liang, Ilya Zharkov, Se-Young Yun
cs.AI
Resumo
Apesar do sucesso da destilação em modelos de linguagem de grande escala (LLMs), a maioria dos trabalhos anteriores aplica funções de perda idênticas tanto para dados gerados pelo professor quanto pelo aluno. Essas estratégias ignoram a sinergia entre formulações de perda e tipos de dados, resultando em um aumento de desempenho subótimo nos modelos do aluno. Para abordar isso, propomos o DistiLLM-2, uma abordagem contrastiva que aumenta simultaneamente a probabilidade das respostas do professor e diminui a das respostas do aluno, aproveitando essa sinergia. Nossos extensos experimentos mostram que o DistiLLM-2 não apenas constrói modelos de aluno de alto desempenho em uma ampla gama de tarefas, incluindo seguimento de instruções e geração de código, mas também suporta diversas aplicações, como alinhamento de preferências e extensões visão-linguagem. Esses resultados destacam o potencial de uma abordagem contrastiva para aumentar a eficácia da destilação de LLMs, alinhando efetivamente modelos de professor e aluno em diversos tipos de dados.
English
Despite the success of distillation in large language models (LLMs), most
prior work applies identical loss functions to both teacher- and
student-generated data. These strategies overlook the synergy between loss
formulations and data types, leading to a suboptimal performance boost in
student models. To address this, we propose DistiLLM-2, a contrastive approach
that simultaneously increases the likelihood of teacher responses and decreases
that of student responses by harnessing this synergy. Our extensive experiments
show that DistiLLM-2 not only builds high-performing student models across a
wide range of tasks, including instruction-following and code generation, but
also supports diverse applications, such as preference alignment and
vision-language extensions. These findings highlight the potential of a
contrastive approach to enhance the efficacy of LLM distillation by effectively
aligning teacher and student models across varied data types.