UltraMemV2:1200億パラメータにスケーリング可能なメモリネットワークと優れた長文脈学習
UltraMemV2: Memory Networks Scaling to 120B Parameters with Superior Long-Context Learning
August 26, 2025
著者: Zihao Huang, Yu Bao, Qiyang Min, Siyan Chen, Ran Guo, Hongzhi Huang, Defa Zhu, Yutao Zeng, Banggu Wu, Xun Zhou, Siyuan Qiao
cs.AI
要旨
Mixture of Experts(MoE)モデルは、パラメータのサブセットのみを活性化することで顕著な効率性を実現しますが、推論時のメモリアクセスコストが高いという課題を抱えています。一方、メモリ層アーキテクチャは、非常に少ないメモリアクセスで魅力的な代替手段を提供しますが、UltraMemのような従来の試みは2エキスパートのMoEモデルの性能にしか匹敵せず、最先端の8エキスパート構成には大きく及ばない状況でした。本論文では、この性能差を埋めるために再設計されたメモリ層アーキテクチャであるUltraMemV2を提案します。私たちのアプローチでは、以下の5つの主要な改善を導入しています:メモリ層をすべてのトランスフォーマーブロックに統合すること、単一の線形射影で値の拡張を簡素化すること、PEERからFFNベースの値処理を採用すること、原則に基づいたパラメータ初期化を実装すること、メモリとFFNの計算比率を再調整することです。広範な評価を通じて、UltraMemV2が同じ計算量とパラメータ数で8エキスパートのMoEモデルと同等の性能を達成しつつ、メモリアクセスを大幅に低減できることを実証しました。特に、UltraMemV2はメモリ集約型タスクで優れた性能を示し、長文脈記憶で+1.6ポイント、多段階記憶で+6.2ポイント、文脈内学習で+7.9ポイントの改善を達成しました。私たちは、総パラメータ数120Bから活性化パラメータ数2.5Bまでの大規模モデルでアプローチを検証し、活性化密度が総スパースパラメータ数よりも性能に大きな影響を与えることを確認しました。本研究により、メモリ層アーキテクチャは最先端のMoEモデルと同等の性能を達成し、効率的なスパース計算のための有力な代替手段として位置づけられました。
English
While Mixture of Experts (MoE) models achieve remarkable efficiency by
activating only subsets of parameters, they suffer from high memory access
costs during inference. Memory-layer architectures offer an appealing
alternative with very few memory access, but previous attempts like UltraMem
have only matched the performance of 2-expert MoE models, falling significantly
short of state-of-the-art 8-expert configurations. We present UltraMemV2, a
redesigned memory-layer architecture that closes this performance gap. Our
approach introduces five key improvements: integrating memory layers into every
transformer block, simplifying value expansion with single linear projections,
adopting FFN-based value processing from PEER, implementing principled
parameter initialization, and rebalancing memory-to-FFN computation ratios.
Through extensive evaluation, we demonstrate that UltraMemV2 achieves
performance parity with 8-expert MoE models under same computation and
parameters but significantly low memory access. Notably, UltraMemV2 shows
superior performance on memory-intensive tasks, with improvements of +1.6
points on long-context memorization, +6.2 points on multi-round memorization,
and +7.9 points on in-context learning. We validate our approach at scale with
models up to 2.5B activated parameters from 120B total parameters, and
establish that activation density has greater impact on performance than total
sparse parameter count. Our work brings memory-layer architectures to
performance parity with state-of-the-art MoE models, presenting a compelling
alternative for efficient sparse computation.