ChatPaper.aiChatPaper

Módulos LLM: Transferência de Conhecimento de um Modelo Grande para um Modelo Pequeno Utilizando Atenção Cruzada Aprimorada

LLM Modules: Knowledge Transfer from a Large to a Small Model using Enhanced Cross-Attention

February 12, 2025
Autores: Konstantin Kolomeitsev
cs.AI

Resumo

Neste trabalho, propomos uma arquitetura de Módulos de LLM que possibilita a transferência de conhecimento de um modelo grande pré-treinado para um modelo menor utilizando um mecanismo de Atenção Cruzada Aprimorada. No esquema proposto, o modelo Qwen2-1.5B é congelado, e suas representações são passadas através de camadas de atenção especialmente projetadas para o modelo GPT-Neo-125M, que é treinado com recursos computacionais limitados. Resultados experimentais no conjunto de dados Bespoke-Stratos-17k demonstram que, após 15 épocas de treinamento, o modelo combinado gera respostas de qualidade comparável àquelas obtidas por destilação. Discutimos as vantagens da abordagem modular, fornecemos exemplos de consultas de entrada e análises comparativas, e delineamos perspectivas para a extensão futura do método.
English
In this work, we propose an architecture of LLM Modules that enables the transfer of knowledge from a large pre-trained model to a smaller model using an Enhanced Cross-Attention mechanism. In the proposed scheme, the Qwen2-1.5B model is frozen and its representations are passed through specially designed attention layers to the GPT-Neo-125M model, which is trained on limited computational resources. Experimental results on the Bespoke-Stratos-17k dataset demonstrate that after 15 epochs of training, the combined model generates responses comparable in quality to those obtained by distillation. We discuss the advantages of the modular approach, provide examples of input queries and comparative analysis, and outline prospects for further extension of the method.
PDF42February 13, 2025