Módulos LLM: Transferencia de Conocimiento de un Modelo Grande a uno Pequeño utilizando Atención Cruzada Mejorada
LLM Modules: Knowledge Transfer from a Large to a Small Model using Enhanced Cross-Attention
February 12, 2025
Autores: Konstantin Kolomeitsev
cs.AI
Resumen
En este trabajo, proponemos una arquitectura de Módulos LLM que permite la transferencia de conocimiento de un modelo pre-entrenado grande a un modelo más pequeño utilizando un mecanismo de Atención Cruzada Mejorada. En el esquema propuesto, el modelo Qwen2-1.5B se mantiene congelado y sus representaciones se pasan a través de capas de atención especialmente diseñadas al modelo GPT-Neo-125M, el cual está entrenado en recursos computacionales limitados. Los resultados experimentales en el conjunto de datos Bespoke-Stratos-17k demuestran que después de 15 épocas de entrenamiento, el modelo combinado genera respuestas de calidad comparable a las obtenidas mediante destilación. Discutimos las ventajas del enfoque modular, proporcionamos ejemplos de consultas de entrada y análisis comparativo, y esbozamos perspectivas para una mayor extensión del método.
English
In this work, we propose an architecture of LLM Modules that enables the
transfer of knowledge from a large pre-trained model to a smaller model using
an Enhanced Cross-Attention mechanism. In the proposed scheme, the Qwen2-1.5B
model is frozen and its representations are passed through specially designed
attention layers to the GPT-Neo-125M model, which is trained on limited
computational resources. Experimental results on the Bespoke-Stratos-17k
dataset demonstrate that after 15 epochs of training, the combined model
generates responses comparable in quality to those obtained by distillation. We
discuss the advantages of the modular approach, provide examples of input
queries and comparative analysis, and outline prospects for further extension
of the method.Summary
AI-Generated Summary