LM2: Große Speichermodelle
LM2: Large Memory Models
February 9, 2025
Autoren: Jikun Kang, Wenqi Wu, Filippos Christianos, Alex J. Chan, Fraser Greenlee, George Thomas, Marvin Purtorab, Andy Toulis
cs.AI
Zusammenfassung
Dieses Paper stellt das Large Memory Model (LM2) vor, eine Decoder-only Transformer-Architektur, die mit einem zusätzlichen Speichermodul verbessert wurde, um den Einschränkungen herkömmlicher Transformer bei mehrstufigem Denken, relationaler Argumentation und der Synthese von Informationen über große Kontexte hinweg entgegenzuwirken. Das vorgeschlagene LM2 integriert ein Speichermodul, das als Repository für kontextuelle Repräsentationen fungiert, mit Eingabetokens über Kreisaufmerksamkeit interagiert und durch Gate-Mechanismen aktualisiert. Um die allgemeinen Fähigkeiten der Transformer zu bewahren, behält LM2 den ursprünglichen Informationsfluss bei und integriert einen ergänzenden Speicherpfad. Experimentelle Ergebnisse am BABILong Benchmark zeigen, dass das LM2-Modell sowohl das speichererweiterte RMT-Modell um 37,1% als auch das Baseline-Modell Llama-3.2 um durchschnittlich 86,3% übertrifft. LM2 zeigt außergewöhnliche Fähigkeiten bei Multi-Hop-Schlussfolgerungen, numerischem Denken und Frage-Antworten über große Kontexte hinweg. Auf dem MMLU-Datensatz erzielt es eine Verbesserung von 5,0% gegenüber einem vorab trainierten Standardmodell und zeigt somit, dass sein Speichermodul die Leistung bei allgemeinen Aufgaben nicht beeinträchtigt. Darüber hinaus untersuchen wir in unserer Analyse die Interpretierbarkeit des Speichers, die Effektivität der Speichermodule und das Testverhalten. Unsere Ergebnisse betonen die Bedeutung expliziter Speicher für die Verbesserung von Transformer-Architekturen.
English
This paper introduces the Large Memory Model (LM2), a decoder-only
Transformer architecture enhanced with an auxiliary memory module that aims to
address the limitations of standard Transformers in multi-step reasoning,
relational argumentation, and synthesizing information distributed over long
contexts. The proposed LM2 incorporates a memory module that acts as a
contextual representation repository, interacting with input tokens via cross
attention and updating through gating mechanisms. To preserve the Transformers
general-purpose capabilities, LM2 maintains the original information flow while
integrating a complementary memory pathway. Experimental results on the
BABILong benchmark demonstrate that the LM2model outperforms both the
memory-augmented RMT model by 37.1% and the baseline Llama-3.2 model by 86.3%
on average across tasks. LM2 exhibits exceptional capabilities in multi-hop
inference, numerical reasoning, and large-context question-answering. On the
MMLU dataset, it achieves a 5.0% improvement over a pre-trained vanilla model,
demonstrating that its memory module does not degrade performance on general
tasks. Further, in our analysis, we explore the memory interpretability,
effectiveness of memory modules, and test-time behavior. Our findings emphasize
the importance of explicit memory in enhancing Transformer architectures.Summary
AI-Generated Summary