L^2M: 장문맥 언어 모델링을 위한 상호정보량 스케일링 법칙
L^2M: Mutual Information Scaling Law for Long-Context Language Modeling
March 6, 2025
저자: Zhuo Chen, Oriol Mayné i Comas, Zhuotao Jin, Di Luo, Marin Soljačić
cs.AI
초록
우리는 자연어에서 장거리 의존성을 지배하는 이분 상호정보(bipartite mutual information) 스케일링 법칙을 엄밀히 정립하였다. 이 스케일링 법칙은 기존의 두 점 상호정보(two-point mutual information)와 구별되며 독립적으로 스케일링되는데, 이는 장문맥 언어 모델링을 이해하는 데 핵심적인 역할을 한다. 이 스케일링 법칙을 활용하여, 우리는 장문맥 언어 모델링(Long-context Language Modeling, L^2M) 조건을 공식화하였다. 이 조건은 모델의 효과적인 장문맥 길이 모델링 능력과 과거 정보를 저장하기 위한 잠재 상태 크기의 스케일링 간의 관계를 규정한다. 우리의 결과는 트랜스포머와 상태 공간 모델(state space models)에 대한 실험을 통해 검증되었다. 이 연구는 대규모 언어 모델의 개발을 더 긴 문맥 길이로 이끌기 위한 이론적 기반을 마련하였다.
English
We rigorously establish a bipartite mutual information scaling law in natural
language that governs long-range dependencies. This scaling law, which we show
is distinct from and scales independently of the conventional two-point mutual
information, is the key to understanding long-context language modeling. Using
this scaling law, we formulate the Long-context Language Modeling (L^2M)
condition, which relates a model's capacity for effective long context length
modeling to the scaling of its latent state size for storing past information.
Our results are validated through experiments on both transformers and state
space models. This work establishes a theoretical foundation that guides the
development of large language models toward longer context lengths.Summary
AI-Generated Summary