ChatPaper.aiChatPaper

L^2M : Loi d'échelle de l'information mutuelle pour la modélisation du langage à contexte long

L^2M: Mutual Information Scaling Law for Long-Context Language Modeling

March 6, 2025
Auteurs: Zhuo Chen, Oriol Mayné i Comas, Zhuotao Jin, Di Luo, Marin Soljačić
cs.AI

Résumé

Nous établissons rigoureusement une loi d'échelle de l'information mutuelle bipartite dans le langage naturel qui régit les dépendances à longue portée. Cette loi d'échelle, que nous montrons distincte et évoluant indépendamment de l'information mutuelle conventionnelle à deux points, est la clé pour comprendre la modélisation du langage à contexte long. En utilisant cette loi d'échelle, nous formulons la condition de Modélisation du Langage à Contexte Long (L^2M), qui relie la capacité d'un modèle à modéliser efficacement des contextes longs à l'échelle de la taille de son état latent pour stocker les informations passées. Nos résultats sont validés par des expériences sur des modèles de type transformeurs et des modèles à espace d'états. Ce travail établit une fondation théorique qui guide le développement de grands modèles de langage vers des contextes plus longs.
English
We rigorously establish a bipartite mutual information scaling law in natural language that governs long-range dependencies. This scaling law, which we show is distinct from and scales independently of the conventional two-point mutual information, is the key to understanding long-context language modeling. Using this scaling law, we formulate the Long-context Language Modeling (L^2M) condition, which relates a model's capacity for effective long context length modeling to the scaling of its latent state size for storing past information. Our results are validated through experiments on both transformers and state space models. This work establishes a theoretical foundation that guides the development of large language models toward longer context lengths.

Summary

AI-Generated Summary

PDF202March 7, 2025