L^2M: Lei de Escalonamento de Informação Mútua para Modelagem de Linguagem de Contexto Longo
L^2M: Mutual Information Scaling Law for Long-Context Language Modeling
March 6, 2025
Autores: Zhuo Chen, Oriol Mayné i Comas, Zhuotao Jin, Di Luo, Marin Soljačić
cs.AI
Resumo
Estabelecemos rigorosamente uma lei de escala de informação mútua bipartida em linguagem natural que governa dependências de longo alcance. Essa lei de escala, que demonstramos ser distinta e escalar independentemente da informação mútua convencional de dois pontos, é a chave para compreender a modelagem de linguagem de contexto longo. Utilizando essa lei de escala, formulamos a condição de Modelagem de Linguagem de Contexto Longo (L^2M), que relaciona a capacidade de um modelo para efetivamente modelar comprimentos de contexto longo ao dimensionamento do tamanho do seu estado latente para armazenar informações passadas. Nossos resultados são validados por meio de experimentos em modelos transformadores e modelos de espaço de estados. Este trabalho estabelece uma base teórica que orienta o desenvolvimento de modelos de linguagem de grande escala para comprimentos de contexto mais longos.
English
We rigorously establish a bipartite mutual information scaling law in natural
language that governs long-range dependencies. This scaling law, which we show
is distinct from and scales independently of the conventional two-point mutual
information, is the key to understanding long-context language modeling. Using
this scaling law, we formulate the Long-context Language Modeling (L^2M)
condition, which relates a model's capacity for effective long context length
modeling to the scaling of its latent state size for storing past information.
Our results are validated through experiments on both transformers and state
space models. This work establishes a theoretical foundation that guides the
development of large language models toward longer context lengths.Summary
AI-Generated Summary