NGM: Un Módulo de Memoria Plug-and-Play sin Entrenamiento para LLMs

Resumen

Estudios recientes introducen módulos de memoria condicional que desacoplan el almacenamiento de conocimiento del cómputo neuronal, permitiendo un acceso más directo al conocimiento. En comparación con MoE, que se basa en rutas dinámicas de cómputo, la búsqueda explícita proporciona un mecanismo de recuperación de conocimiento más eficiente. Sin embargo, estos enfoques aún dependen de embeddings de memoria aprendidos, lo que requiere entrenamiento adicional y limita la flexibilidad. Para abordar esto, proponemos N-gram Memory (NGM), un módulo plug-and-play que no requiere entrenamiento, compuesto por un Codificador Causal de N-gramas y un Inyector de Memoria con Puerta Coseno. El Codificador Causal de N-gramas promedia directamente los embeddings de tokens preentrenados del modelo base para construir representaciones de N-gramas, eliminando así la necesidad de entrenar embeddings de N-gramas separados desde cero. Este diseño no requiere ni una tabla de memoria adicional ni un pipeline de recuperación. El Inyector de Memoria con Puerta Coseno utiliza entonces una puerta coseno no paramétrica con ReLU para modular los embeddings recuperados en las representaciones contextuales. Evaluamos NGM en la serie Qwen3 desde 0.6B hasta 14B en ocho benchmarks. NGM mejora el rendimiento promedio entre 0.5 y 1.2 puntos, con ganancias particularmente claras en generación de código y tareas intensivas en conocimiento (por ejemplo, +3.0 en LiveCodeBench y +3.03 en GPQA para Qwen3-14B). Además, NGM también mejora el rendimiento en benchmarks multimodales (por ejemplo, MMStar +1.53 en Qwen3-VL-2B).

English

Recent studies introduce conditional memory modules that decouple knowledge storage from neural computation, enabling more direct knowledge access. Compared to MoE, which relies on dynamic computation paths, explicit lookup provides a more efficient knowledge retrieval mechanism. However, these approaches still depend on learned memory embeddings, requiring additional training and limiting flexibility. To address this, we propose N-gram Memory (NGM), a training-free, plug-and-play module composed of a Causal N-Gram Encoder and a Cosine-Gated Memory Injector. The Causal N-Gram Encoder directly averages the pretrained token embeddings of the backbone model to construct N-gram representations, thereby eliminating the need to train separate N-gram embeddings from scratch. This design requires neither an additional memory table nor a retrieval pipeline. The Cosine-Gated Memory Injector then uses a non-parametric cosine gate with ReLU to modulate the retrieved embeddings into the contextual representations. We evaluate NGM on the Qwen3 series from 0.6B to 14B across eight benchmarks. NGM improves average performance by 0.5 to 1.2 points, with particularly clear gains on code generation and knowledge-intensive tasks (e.g., +3.0 on LiveCodeBench and +3.03 on GPQA for Qwen3-14B). Moreover, NGM also improves performance in multimodal benchmarks (e.g., MMStar +1.53 on Qwen3-VL-2B).