NGM: Ein Plug-and-Play-trainingsfreies Speichermodul für LLMs

Zusammenfassung

Aktuelle Studien führen bedingte Speichermodule ein, die die Wissensspeicherung von der neuronalen Berechnung entkoppeln und so einen direkteren Wissenszugriff ermöglichen. Im Vergleich zu MoE, das auf dynamischen Berechnungspfaden basiert, bietet das explizite Nachschlagen einen effizienteren Mechanismus zum Abrufen von Wissen. Diese Ansätze sind jedoch weiterhin auf gelernte Speichereinbettungen angewiesen, was zusätzliches Training erfordert und die Flexibilität einschränkt. Um dieses Problem zu lösen, schlagen wir N-gram Memory (NGM) vor, ein trainingsfreies, Plug-and-Play-Modul, das aus einem kausalen N-Gramm-Encoder und einem Cosinus-Gated-Speicherinjektor besteht. Der kausale N-Gramm-Encoder mittelt direkt die vortrainierten Token-Einbettungen des Backbone-Modells, um N-Gramm-Repräsentationen zu konstruieren, wodurch das separate Training von N-Gramm-Einbettungen von Grund auf überflüssig wird. Dieses Design benötigt weder eine zusätzliche Speichertabelle noch eine Abrufpipeline. Der Cosinus-Gated-Speicherinjektor moduliert dann mithilfe eines nicht-parametrischen Cosinus-Gates mit ReLU die abgerufenen Einbettungen in die kontextuellen Repräsentationen. Wir evaluieren NGM an der Qwen3-Serie von 0,6B bis 14B über acht Benchmarks hinweg. NGM verbessert die durchschnittliche Leistung um 0,5 bis 1,2 Punkte, mit besonders deutlichen Zugewinnen bei Codegenerierung und wissensintensiven Aufgaben (z. B. +3,0 bei LiveCodeBench und +3,03 bei GPQA für Qwen3-14B). Darüber hinaus verbessert NGM auch die Leistung in multimodalen Benchmarks (z. B. MMStar +1,53 bei Qwen3-VL-2B).

English

Recent studies introduce conditional memory modules that decouple knowledge storage from neural computation, enabling more direct knowledge access. Compared to MoE, which relies on dynamic computation paths, explicit lookup provides a more efficient knowledge retrieval mechanism. However, these approaches still depend on learned memory embeddings, requiring additional training and limiting flexibility. To address this, we propose N-gram Memory (NGM), a training-free, plug-and-play module composed of a Causal N-Gram Encoder and a Cosine-Gated Memory Injector. The Causal N-Gram Encoder directly averages the pretrained token embeddings of the backbone model to construct N-gram representations, thereby eliminating the need to train separate N-gram embeddings from scratch. This design requires neither an additional memory table nor a retrieval pipeline. The Cosine-Gated Memory Injector then uses a non-parametric cosine gate with ReLU to modulate the retrieved embeddings into the contextual representations. We evaluate NGM on the Qwen3 series from 0.6B to 14B across eight benchmarks. NGM improves average performance by 0.5 to 1.2 points, with particularly clear gains on code generation and knowledge-intensive tasks (e.g., +3.0 on LiveCodeBench and +3.03 on GPQA for Qwen3-14B). Moreover, NGM also improves performance in multimodal benchmarks (e.g., MMStar +1.53 on Qwen3-VL-2B).