ChatPaper.aiChatPaper

L^2M: Legge di Scalabilità dell'Informazione Mutua per la Modellazione del Linguaggio a Contesto Esteso

L^2M: Mutual Information Scaling Law for Long-Context Language Modeling

March 6, 2025
Autori: Zhuo Chen, Oriol Mayné i Comas, Zhuotao Jin, Di Luo, Marin Soljačić
cs.AI

Abstract

Stabiliamo rigorosamente una legge di scala dell'informazione mutua bipartita nel linguaggio naturale che governa le dipendenze a lungo raggio. Questa legge di scala, che dimostriamo essere distinta e scalare indipendentemente dalla convenzionale informazione mutua a due punti, è la chiave per comprendere la modellazione del linguaggio a contesto lungo. Utilizzando questa legge di scala, formuliamo la condizione di Modellazione del Linguaggio a Contesto Lungo (L^2M), che collega la capacità di un modello di modellare efficacemente contesti lunghi alla scala della dimensione del suo stato latente per memorizzare informazioni passate. I nostri risultati sono validati attraverso esperimenti su modelli sia di tipo transformer che a spazio di stati. Questo lavoro stabilisce una fondazione teorica che guida lo sviluppo di modelli linguistici di grandi dimensioni verso contesti più lunghi.
English
We rigorously establish a bipartite mutual information scaling law in natural language that governs long-range dependencies. This scaling law, which we show is distinct from and scales independently of the conventional two-point mutual information, is the key to understanding long-context language modeling. Using this scaling law, we formulate the Long-context Language Modeling (L^2M) condition, which relates a model's capacity for effective long context length modeling to the scaling of its latent state size for storing past information. Our results are validated through experiments on both transformers and state space models. This work establishes a theoretical foundation that guides the development of large language models toward longer context lengths.
PDF212March 7, 2025