UltraMemV2: Speichernetzwerke mit Skalierung auf 120 Milliarden Parameter und überlegenem Langzeitkontext-Lernen
UltraMemV2: Memory Networks Scaling to 120B Parameters with Superior Long-Context Learning
August 26, 2025
papers.authors: Zihao Huang, Yu Bao, Qiyang Min, Siyan Chen, Ran Guo, Hongzhi Huang, Defa Zhu, Yutao Zeng, Banggu Wu, Xun Zhou, Siyuan Qiao
cs.AI
papers.abstract
Während Mixture of Experts (MoE)-Modelle durch die Aktivierung nur von Teilmengen der Parameter eine bemerkenswerte Effizienz erreichen, leiden sie unter hohen Speicherzugriffskosten während der Inferenz. Speicherschicht-Architekturen bieten eine attraktive Alternative mit sehr wenigen Speicherzugriffen, aber bisherige Versuche wie UltraMem haben nur die Leistung von 2-Expert-MoE-Modellen erreicht und liegen deutlich hinter den state-of-the-art 8-Expert-Konfigurationen zurück. Wir präsentieren UltraMemV2, eine neu gestaltete Speicherschicht-Architektur, die diese Leistungslücke schließt. Unser Ansatz führt fünf wesentliche Verbesserungen ein: die Integration von Speicherschichten in jeden Transformer-Block, die Vereinfachung der Wertexpansion durch einzelne lineare Projektionen, die Übernahme der FFN-basierten Wertverarbeitung von PEER, die Implementierung einer prinzipienbasierten Parameterinitialisierung und die Neubewertung der Speicher-zu-FFN-Berechnungsverhältnisse. Durch umfangreiche Evaluierungen zeigen wir, dass UltraMemV2 bei gleicher Berechnung und Parametern eine Leistungsparität mit 8-Expert-MoE-Modellen erreicht, jedoch mit deutlich geringeren Speicherzugriffen. Insbesondere zeigt UltraMemV2 eine überlegene Leistung bei speicherintensiven Aufgaben, mit Verbesserungen von +1,6 Punkten bei der Langzeitkontext-Memorierung, +6,2 Punkten bei der Mehrrunden-Memorierung und +7,9 Punkten beim In-Context-Lernen. Wir validieren unseren Ansatz im großen Maßstab mit Modellen bis zu 2,5B aktivierten Parametern aus insgesamt 120B Parametern und stellen fest, dass die Aktivierungsdichte einen größeren Einfluss auf die Leistung hat als die Gesamtzahl der spärlichen Parameter. Unsere Arbeit bringt Speicherschicht-Architekturen auf Leistungsparität mit state-of-the-art MoE-Modellen und präsentiert eine überzeugende Alternative für effiziente spärliche Berechnungen.
English
While Mixture of Experts (MoE) models achieve remarkable efficiency by
activating only subsets of parameters, they suffer from high memory access
costs during inference. Memory-layer architectures offer an appealing
alternative with very few memory access, but previous attempts like UltraMem
have only matched the performance of 2-expert MoE models, falling significantly
short of state-of-the-art 8-expert configurations. We present UltraMemV2, a
redesigned memory-layer architecture that closes this performance gap. Our
approach introduces five key improvements: integrating memory layers into every
transformer block, simplifying value expansion with single linear projections,
adopting FFN-based value processing from PEER, implementing principled
parameter initialization, and rebalancing memory-to-FFN computation ratios.
Through extensive evaluation, we demonstrate that UltraMemV2 achieves
performance parity with 8-expert MoE models under same computation and
parameters but significantly low memory access. Notably, UltraMemV2 shows
superior performance on memory-intensive tasks, with improvements of +1.6
points on long-context memorization, +6.2 points on multi-round memorization,
and +7.9 points on in-context learning. We validate our approach at scale with
models up to 2.5B activated parameters from 120B total parameters, and
establish that activation density has greater impact on performance than total
sparse parameter count. Our work brings memory-layer architectures to
performance parity with state-of-the-art MoE models, presenting a compelling
alternative for efficient sparse computation.