L^2M: Ley de Escalado de Información Mutua para Modelado de Lenguaje de Contexto Largo
L^2M: Mutual Information Scaling Law for Long-Context Language Modeling
March 6, 2025
Autores: Zhuo Chen, Oriol Mayné i Comas, Zhuotao Jin, Di Luo, Marin Soljačić
cs.AI
Resumen
Establecemos rigurosamente una ley de escalado de información mutua bipartita en el lenguaje natural que gobierna las dependencias de largo alcance. Esta ley de escalado, que demostramos es distinta y escala de manera independiente a la información mutua convencional de dos puntos, es clave para comprender el modelado de lenguaje de contexto largo. Utilizando esta ley de escalado, formulamos la condición de Modelado de Lenguaje de Contexto Largo (L^2M), que relaciona la capacidad de un modelo para el modelado efectivo de contextos largos con el escalado del tamaño de su estado latente para almacenar información pasada. Nuestros resultados se validan mediante experimentos tanto en transformadores como en modelos de espacio de estados. Este trabajo establece una base teórica que guía el desarrollo de modelos de lenguaje grandes hacia longitudes de contexto más extensas.
English
We rigorously establish a bipartite mutual information scaling law in natural
language that governs long-range dependencies. This scaling law, which we show
is distinct from and scales independently of the conventional two-point mutual
information, is the key to understanding long-context language modeling. Using
this scaling law, we formulate the Long-context Language Modeling (L^2M)
condition, which relates a model's capacity for effective long context length
modeling to the scaling of its latent state size for storing past information.
Our results are validated through experiments on both transformers and state
space models. This work establishes a theoretical foundation that guides the
development of large language models toward longer context lengths.Summary
AI-Generated Summary