DistiLLM-2: Uma Abordagem Contrastiva Impulsiona a Destilação de LLMs

Resumo

Apesar do sucesso da destilação em modelos de linguagem de grande escala (LLMs), a maioria dos trabalhos anteriores aplica funções de perda idênticas tanto para dados gerados pelo professor quanto pelo aluno. Essas estratégias ignoram a sinergia entre formulações de perda e tipos de dados, resultando em um aumento de desempenho subótimo nos modelos do aluno. Para abordar isso, propomos o DistiLLM-2, uma abordagem contrastiva que aumenta simultaneamente a probabilidade das respostas do professor e diminui a das respostas do aluno, aproveitando essa sinergia. Nossos extensos experimentos mostram que o DistiLLM-2 não apenas constrói modelos de aluno de alto desempenho em uma ampla gama de tarefas, incluindo seguimento de instruções e geração de código, mas também suporta diversas aplicações, como alinhamento de preferências e extensões visão-linguagem. Esses resultados destacam o potencial de uma abordagem contrastiva para aumentar a eficácia da destilação de LLMs, alinhando efetivamente modelos de professor e aluno em diversos tipos de dados.

English

Despite the success of distillation in large language models (LLMs), most prior work applies identical loss functions to both teacher- and student-generated data. These strategies overlook the synergy between loss formulations and data types, leading to a suboptimal performance boost in student models. To address this, we propose DistiLLM-2, a contrastive approach that simultaneously increases the likelihood of teacher responses and decreases that of student responses by harnessing this synergy. Our extensive experiments show that DistiLLM-2 not only builds high-performing student models across a wide range of tasks, including instruction-following and code generation, but also supports diverse applications, such as preference alignment and vision-language extensions. These findings highlight the potential of a contrastive approach to enhance the efficacy of LLM distillation by effectively aligning teacher and student models across varied data types.

DistiLLM-2: Uma Abordagem Contrastiva Impulsiona a Destilação de LLMs

DistiLLM-2: A Contrastive Approach Boosts the Distillation of LLMs

Resumo

Support