MeKi: Inyección de Conocimiento Experto Basada en Memoria para el Escalado Eficiente de Modelos de Lenguaje Grandes

Resumen

La escalabilidad de los Modelos de Lenguaje a Gran Escala (LLM) generalmente depende del aumento del número de parámetros o de las computaciones en tiempo de prueba para mejorar el rendimiento. Sin embargo, estas estrategias son impracticables para el despliegue en dispositivos de borde debido a los limitados recursos de RAM y NPU. A pesar de las restricciones de hardware, desplegar LLM de alto rendimiento en dispositivos de borde, como los teléfonos inteligentes, sigue siendo crucial para la experiencia del usuario. Para abordar este problema, proponemos MeKi (Inyección de Conocimiento Experto Basada en Memoria), un sistema novedoso que escala la capacidad de los LLM mediante el espacio de almacenamiento en lugar de los FLOPS. MeKi equipa cada capa del Transformer con expertos de memoria a nivel de token que inyectan conocimiento semántico prealmacenado en el proceso de generación. Para salvar la brecha entre la capacidad de entrenamiento y la eficiencia de inferencia, empleamos una estrategia de re-parametrización que pliega las matrices de parámetros utilizadas durante el entrenamiento en una tabla de búsqueda estática y compacta. Al descargar el conocimiento a la ROM, MeKi desacopla la capacidad del modelo del coste computacional, introduciendo una sobrecarga de latencia de inferencia nula. Experimentos exhaustivos demuestran que MeKi supera significativamente a los modelos densos de LLM de referencia con una velocidad de inferencia idéntica, validando la efectividad del paradigma de escalado basado en memoria para LLM en el dispositivo. La página principal del proyecto se encuentra en https://github.com/ningding-o/MeKi.

English

Scaling Large Language Models (LLMs) typically relies on increasing the number of parameters or test-time computations to boost performance. However, these strategies are impractical for edge device deployment due to limited RAM and NPU resources. Despite hardware constraints, deploying performant LLM on edge devices such as smartphone remains crucial for user experience. To address this, we propose MeKi (Memory-based Expert Knowledge Injection), a novel system that scales LLM capacity via storage space rather than FLOPs. MeKi equips each Transformer layer with token-level memory experts that injects pre-stored semantic knowledge into the generation process. To bridge the gap between training capacity and inference efficiency, we employ a re-parameterization strategy to fold parameter matrices used during training into a compact static lookup table. By offloading the knowledge to ROM, MeKi decouples model capacity from computational cost, introducing zero inference latency overhead. Extensive experiments demonstrate that MeKi significantly outperforms dense LLM baselines with identical inference speed, validating the effectiveness of memory-based scaling paradigm for on-device LLMs. Project homepage is at https://github.com/ningding-o/MeKi.