ChatPaper.aiChatPaper

L^2M: 長文脈言語モデリングのための相互情報量スケーリング則

L^2M: Mutual Information Scaling Law for Long-Context Language Modeling

March 6, 2025
著者: Zhuo Chen, Oriol Mayné i Comas, Zhuotao Jin, Di Luo, Marin Soljačić
cs.AI

要旨

我々は、自然言語における長距離依存性を支配する二部相互情報量のスケーリング則を厳密に確立する。このスケーリング則は、従来の二点相互情報量とは異なり、独立してスケールすることを示し、長文脈言語モデリングを理解する鍵となる。このスケーリング則を用いて、モデルの有効な長文脈長モデリング能力と、過去情報を格納するための潜在状態サイズのスケーリングを関連付ける長文脈言語モデリング(L^2M)条件を定式化する。我々の結果は、トランスフォーマーと状態空間モデルの両方における実験を通じて検証される。本研究は、大規模言語モデルの開発をより長い文脈長に向けて導く理論的基盤を確立するものである。
English
We rigorously establish a bipartite mutual information scaling law in natural language that governs long-range dependencies. This scaling law, which we show is distinct from and scales independently of the conventional two-point mutual information, is the key to understanding long-context language modeling. Using this scaling law, we formulate the Long-context Language Modeling (L^2M) condition, which relates a model's capacity for effective long context length modeling to the scaling of its latent state size for storing past information. Our results are validated through experiments on both transformers and state space models. This work establishes a theoretical foundation that guides the development of large language models toward longer context lengths.

Summary

AI-Generated Summary

PDF202March 7, 2025