ChatPaper.aiChatPaper

DistiLLM-2: Un enfoque contrastivo potencia la destilación de modelos de lenguaje grandes

DistiLLM-2: A Contrastive Approach Boosts the Distillation of LLMs

March 10, 2025
Autores: Jongwoo Ko, Tianyi Chen, Sungnyun Kim, Tianyu Ding, Luming Liang, Ilya Zharkov, Se-Young Yun
cs.AI

Resumen

A pesar del éxito de la destilación en los modelos de lenguaje de gran escala (LLMs), la mayoría de los trabajos previos aplican funciones de pérdida idénticas tanto a los datos generados por el profesor como por el estudiante. Estas estrategias pasan por alto la sinergia entre las formulaciones de pérdida y los tipos de datos, lo que resulta en un aumento de rendimiento subóptimo en los modelos estudiantiles. Para abordar esto, proponemos DistiLLM-2, un enfoque contrastivo que simultáneamente aumenta la probabilidad de las respuestas del profesor y disminuye la de las respuestas del estudiante al aprovechar esta sinergia. Nuestros extensos experimentos muestran que DistiLLM-2 no solo construye modelos estudiantiles de alto rendimiento en una amplia gama de tareas, incluyendo la seguimiento de instrucciones y la generación de código, sino que también respalda diversas aplicaciones, como la alineación de preferencias y extensiones de visión-lenguaje. Estos hallazgos resaltan el potencial de un enfoque contrastivo para mejorar la eficacia de la destilación de LLMs al alinear efectivamente los modelos del profesor y del estudiante en diversos tipos de datos.
English
Despite the success of distillation in large language models (LLMs), most prior work applies identical loss functions to both teacher- and student-generated data. These strategies overlook the synergy between loss formulations and data types, leading to a suboptimal performance boost in student models. To address this, we propose DistiLLM-2, a contrastive approach that simultaneously increases the likelihood of teacher responses and decreases that of student responses by harnessing this synergy. Our extensive experiments show that DistiLLM-2 not only builds high-performing student models across a wide range of tasks, including instruction-following and code generation, but also supports diverse applications, such as preference alignment and vision-language extensions. These findings highlight the potential of a contrastive approach to enhance the efficacy of LLM distillation by effectively aligning teacher and student models across varied data types.

Summary

AI-Generated Summary

PDF322March 11, 2025