L^2M: Schaalwet voor Wederzijdse Informatie bij Taalmodellering met Lange Context
L^2M: Mutual Information Scaling Law for Long-Context Language Modeling
March 6, 2025
Auteurs: Zhuo Chen, Oriol Mayné i Comas, Zhuotao Jin, Di Luo, Marin Soljačić
cs.AI
Samenvatting
We leggen rigoureus een bipartiete wederzijdse informatie-schaalwet vast in natuurlijke taal die langeafstandsafhankelijkheden beheerst. Deze schaalwet, waarvan we aantonen dat deze verschilt van en onafhankelijk schaalt van de conventionele tweepunts wederzijdse informatie, is de sleutel tot het begrijpen van lang-context taalmodellering. Met behulp van deze schaalwet formuleren we de Lang-context Taalmodellering (L^2M) voorwaarde, die het vermogen van een model voor effectieve lange contextlengte modellering relateert aan de schaling van de grootte van zijn latente toestand voor het opslaan van eerdere informatie. Onze resultaten worden gevalideerd door experimenten op zowel transformatoren als toestandsruimtemodellen. Dit werk legt een theoretische basis die de ontwikkeling van grote taalmodellen richting langere contextlengten begeleidt.
English
We rigorously establish a bipartite mutual information scaling law in natural
language that governs long-range dependencies. This scaling law, which we show
is distinct from and scales independently of the conventional two-point mutual
information, is the key to understanding long-context language modeling. Using
this scaling law, we formulate the Long-context Language Modeling (L^2M)
condition, which relates a model's capacity for effective long context length
modeling to the scaling of its latent state size for storing past information.
Our results are validated through experiments on both transformers and state
space models. This work establishes a theoretical foundation that guides the
development of large language models toward longer context lengths.Summary
AI-Generated Summary