Modules LLM : Transfert de Connaissances d'un Modèle Large à un Modèle Réduit en Utilisant une Attention Croisée Améliorée
LLM Modules: Knowledge Transfer from a Large to a Small Model using Enhanced Cross-Attention
February 12, 2025
Auteurs: Konstantin Kolomeitsev
cs.AI
Résumé
Dans ce travail, nous proposons une architecture de modules LLM qui permet le transfert de connaissances d'un grand modèle pré-entraîné vers un modèle plus petit en utilisant un mécanisme d'attention croisée amélioré. Dans le schéma proposé, le modèle Qwen2-1.5B est gelé et ses représentations sont transmises à travers des couches d'attention spécialement conçues vers le modèle GPT-Neo-125M, qui est entraîné sur des ressources computationnelles limitées. Les résultats expérimentaux sur l'ensemble de données Bespoke-Stratos-17k démontrent qu'après 15 époques d'entraînement, le modèle combiné génère des réponses de qualité comparable à celles obtenues par distillation. Nous discutons des avantages de l'approche modulaire, fournissons des exemples de requêtes d'entrée et une analyse comparative, et esquissons les perspectives d'extension ultérieure de la méthode.
English
In this work, we propose an architecture of LLM Modules that enables the
transfer of knowledge from a large pre-trained model to a smaller model using
an Enhanced Cross-Attention mechanism. In the proposed scheme, the Qwen2-1.5B
model is frozen and its representations are passed through specially designed
attention layers to the GPT-Neo-125M model, which is trained on limited
computational resources. Experimental results on the Bespoke-Stratos-17k
dataset demonstrate that after 15 epochs of training, the combined model
generates responses comparable in quality to those obtained by distillation. We
discuss the advantages of the modular approach, provide examples of input
queries and comparative analysis, and outline prospects for further extension
of the method.Summary
AI-Generated Summary