DistiLLM-2: Un enfoque contrastivo potencia la destilación de modelos de lenguaje grandes
DistiLLM-2: A Contrastive Approach Boosts the Distillation of LLMs
March 10, 2025
Autores: Jongwoo Ko, Tianyi Chen, Sungnyun Kim, Tianyu Ding, Luming Liang, Ilya Zharkov, Se-Young Yun
cs.AI
Resumen
A pesar del éxito de la destilación en los modelos de lenguaje de gran escala (LLMs), la mayoría de los trabajos previos aplican funciones de pérdida idénticas tanto a los datos generados por el profesor como por el estudiante. Estas estrategias pasan por alto la sinergia entre las formulaciones de pérdida y los tipos de datos, lo que resulta en un aumento de rendimiento subóptimo en los modelos estudiantiles. Para abordar esto, proponemos DistiLLM-2, un enfoque contrastivo que simultáneamente aumenta la probabilidad de las respuestas del profesor y disminuye la de las respuestas del estudiante al aprovechar esta sinergia. Nuestros extensos experimentos muestran que DistiLLM-2 no solo construye modelos estudiantiles de alto rendimiento en una amplia gama de tareas, incluyendo la seguimiento de instrucciones y la generación de código, sino que también respalda diversas aplicaciones, como la alineación de preferencias y extensiones de visión-lenguaje. Estos hallazgos resaltan el potencial de un enfoque contrastivo para mejorar la eficacia de la destilación de LLMs al alinear efectivamente los modelos del profesor y del estudiante en diversos tipos de datos.
English
Despite the success of distillation in large language models (LLMs), most
prior work applies identical loss functions to both teacher- and
student-generated data. These strategies overlook the synergy between loss
formulations and data types, leading to a suboptimal performance boost in
student models. To address this, we propose DistiLLM-2, a contrastive approach
that simultaneously increases the likelihood of teacher responses and decreases
that of student responses by harnessing this synergy. Our extensive experiments
show that DistiLLM-2 not only builds high-performing student models across a
wide range of tasks, including instruction-following and code generation, but
also supports diverse applications, such as preference alignment and
vision-language extensions. These findings highlight the potential of a
contrastive approach to enhance the efficacy of LLM distillation by effectively
aligning teacher and student models across varied data types.Summary
AI-Generated Summary