Exploración de la Purificación del Conocimiento en la Destilación de Conocimiento Multi-Maestro para Modelos de Lenguaje Grandes (LLMs)

Resumen

La destilación de conocimiento ha surgido como una técnica fundamental para transferir conocimiento desde modelos de lenguaje grandes (LLM) más potentes a modelos más pequeños y eficientes. Sin embargo, los enfoques tradicionales de destilación enfrentan desafíos relacionados con conflictos de conocimiento y altas demandas de recursos, particularmente cuando se utilizan múltiples modelos maestros. En este artículo, introducimos el concepto de Purificación de Conocimiento, que consolida las racionalizaciones de múltiples LLM maestros en una única racionalización, mitigando así los conflictos y mejorando la eficiencia. Para investigar la efectividad de la purificación de conocimiento, proponemos además cinco métodos de purificación desde diversas perspectivas. Nuestros experimentos demuestran que estos métodos no solo mejoran el rendimiento del modelo destilado, sino que también alivian efectivamente los conflictos de conocimiento. Además, los métodos basados en enrutadores exhiben capacidades de generalización robustas, subrayando el potencial de las técnicas innovadoras de purificación para optimizar la destilación multi-maestro y facilitar la implementación práctica de modelos potentes pero livianos.

English

Knowledge distillation has emerged as a pivotal technique for transferring knowledge from stronger large language models (LLMs) to smaller, more efficient models. However, traditional distillation approaches face challenges related to knowledge conflicts and high resource demands, particularly when leveraging multiple teacher models. In this paper, we introduce the concept of Knowledge Purification, which consolidates the rationales from multiple teacher LLMs into a single rationale, thereby mitigating conflicts and enhancing efficiency. To investigate the effectiveness of knowledge purification, we further propose five purification methods from various perspectives. Our experiments demonstrate that these methods not only improve the performance of the distilled model but also effectively alleviate knowledge conflicts. Moreover, router-based methods exhibit robust generalization capabilities, underscoring the potential of innovative purification techniques in optimizing multi-teacher distillation and facilitating the practical deployment of powerful yet lightweight models.