NGM: Een plug-and-play, trainingsvrije geheugenmodule voor LLM's

Samenvatting

Recente studies introduceren conditionele geheugenmodules die kennisopslag loskoppelen van neurale berekening, wat directere kennistoegang mogelijk maakt. Vergeleken met MoE, dat afhankelijk is van dynamische rekempaden, biedt expliciete opzoeking een efficiënter mechanisme voor kennisophaling. Deze benaderingen zijn echter nog steeds afhankelijk van aangeleerde geheugenembeddings, wat extra training vereist en de flexibiliteit beperkt. Om dit aan te pakken stellen we N-gram Memory (NGM) voor, een trainingsvrije, plug-and-play module bestaande uit een Causale N-Gram Encoder en een Cosinus-Gated Geheugeninjector. De Causale N-Gram Encoder middelt direct de voorgetrainde token-embeddings van het backbone-model om N-gram representaties te construeren, waardoor het afzonderlijk trainen van N-gram embeddings overbodig wordt. Dit ontwerp vereist noch een extra geheugentabel, noch een retrieval-pijplijn. De Cosinus-Gated Geheugeninjector gebruikt vervolgens een niet-parametrische cosinuspoort met ReLU om de opgehaalde embeddings te moduleren in de contextuele representaties. We evalueren NGM op de Qwen3-serie van 0,6B tot 14B over acht benchmarks. NGM verbetert de gemiddelde prestatie met 0,5 tot 1,2 punten, met bijzonder duidelijke winst op codegeneratie en kennisintensieve taken (bijv. +3,0 op LiveCodeBench en +3,03 op GPQA voor Qwen3-14B). Bovendien verbetert NGM ook de prestaties op multimodale benchmarks (bijv. MMStar +1,53 op Qwen3-VL-2B).

English

Recent studies introduce conditional memory modules that decouple knowledge storage from neural computation, enabling more direct knowledge access. Compared to MoE, which relies on dynamic computation paths, explicit lookup provides a more efficient knowledge retrieval mechanism. However, these approaches still depend on learned memory embeddings, requiring additional training and limiting flexibility. To address this, we propose N-gram Memory (NGM), a training-free, plug-and-play module composed of a Causal N-Gram Encoder and a Cosine-Gated Memory Injector. The Causal N-Gram Encoder directly averages the pretrained token embeddings of the backbone model to construct N-gram representations, thereby eliminating the need to train separate N-gram embeddings from scratch. This design requires neither an additional memory table nor a retrieval pipeline. The Cosine-Gated Memory Injector then uses a non-parametric cosine gate with ReLU to modulate the retrieved embeddings into the contextual representations. We evaluate NGM on the Qwen3 series from 0.6B to 14B across eight benchmarks. NGM improves average performance by 0.5 to 1.2 points, with particularly clear gains on code generation and knowledge-intensive tasks (e.g., +3.0 on LiveCodeBench and +3.03 on GPQA for Qwen3-14B). Moreover, NGM also improves performance in multimodal benchmarks (e.g., MMStar +1.53 on Qwen3-VL-2B).