Modules LLM : Transfert de Connaissances d'un Modèle Large à un Modèle Réduit en Utilisant une Attention Croisée Améliorée

papers.abstract

Dans ce travail, nous proposons une architecture de modules LLM qui permet le transfert de connaissances d'un grand modèle pré-entraîné vers un modèle plus petit en utilisant un mécanisme d'attention croisée amélioré. Dans le schéma proposé, le modèle Qwen2-1.5B est gelé et ses représentations sont transmises à travers des couches d'attention spécialement conçues vers le modèle GPT-Neo-125M, qui est entraîné sur des ressources computationnelles limitées. Les résultats expérimentaux sur l'ensemble de données Bespoke-Stratos-17k démontrent qu'après 15 époques d'entraînement, le modèle combiné génère des réponses de qualité comparable à celles obtenues par distillation. Nous discutons des avantages de l'approche modulaire, fournissons des exemples de requêtes d'entrée et une analyse comparative, et esquissons les perspectives d'extension ultérieure de la méthode.

English

In this work, we propose an architecture of LLM Modules that enables the transfer of knowledge from a large pre-trained model to a smaller model using an Enhanced Cross-Attention mechanism. In the proposed scheme, the Qwen2-1.5B model is frozen and its representations are passed through specially designed attention layers to the GPT-Neo-125M model, which is trained on limited computational resources. Experimental results on the Bespoke-Stratos-17k dataset demonstrate that after 15 epochs of training, the combined model generates responses comparable in quality to those obtained by distillation. We discuss the advantages of the modular approach, provide examples of input queries and comparative analysis, and outline prospects for further extension of the method.

Modules LLM : Transfert de Connaissances d'un Modèle Large à un Modèle Réduit en Utilisant une Attention Croisée Améliorée

LLM Modules: Knowledge Transfer from a Large to a Small Model using Enhanced Cross-Attention

papers.abstract

Support