Explorando a Purificação do Conhecimento na Distilação de Conhecimento Multi-Professor para LLMs

Resumo

A destilação de conhecimento emergiu como uma técnica fundamental para transferir conhecimento de modelos de linguagem grandes (LLMs) mais robustos para modelos menores e mais eficientes. No entanto, as abordagens tradicionais de destilação enfrentam desafios relacionados a conflitos de conhecimento e altas demandas de recursos, especialmente quando se utilizam múltiplos modelos professores. Neste artigo, introduzimos o conceito de Purificação de Conhecimento, que consolida as racionalidades de múltiplos LLMs professores em uma única racionalidade, mitigando assim conflitos e aumentando a eficiência. Para investigar a eficácia da purificação de conhecimento, propomos ainda cinco métodos de purificação a partir de várias perspectivas. Nossos experimentos demonstram que esses métodos não apenas melhoram o desempenho do modelo destilado, mas também aliviam efetivamente os conflitos de conhecimento. Além disso, os métodos baseados em roteadores exibem capacidades de generalização robustas, ressaltando o potencial de técnicas inovadoras de purificação na otimização da destilação multi-professor e na facilitação da implantação prática de modelos poderosos e leves.

English

Knowledge distillation has emerged as a pivotal technique for transferring knowledge from stronger large language models (LLMs) to smaller, more efficient models. However, traditional distillation approaches face challenges related to knowledge conflicts and high resource demands, particularly when leveraging multiple teacher models. In this paper, we introduce the concept of Knowledge Purification, which consolidates the rationales from multiple teacher LLMs into a single rationale, thereby mitigating conflicts and enhancing efficiency. To investigate the effectiveness of knowledge purification, we further propose five purification methods from various perspectives. Our experiments demonstrate that these methods not only improve the performance of the distilled model but also effectively alleviate knowledge conflicts. Moreover, router-based methods exhibit robust generalization capabilities, underscoring the potential of innovative purification techniques in optimizing multi-teacher distillation and facilitating the practical deployment of powerful yet lightweight models.

Explorando a Purificação do Conhecimento na Distilação de Conhecimento Multi-Professor para LLMs

Exploring Knowledge Purification in Multi-Teacher Knowledge Distillation for LLMs

Resumo

Support