L^2M: Skalierungsgesetz der gegenseitigen Information für die Sprachmodellierung mit langem Kontext
L^2M: Mutual Information Scaling Law for Long-Context Language Modeling
March 6, 2025
Autoren: Zhuo Chen, Oriol Mayné i Comas, Zhuotao Jin, Di Luo, Marin Soljačić
cs.AI
Zusammenfassung
Wir etablieren rigoros ein bipartites Skalierungsgesetz der gegenseitigen Information in natürlicher Sprache, das langreichweitige Abhängigkeiten regelt. Dieses Skalierungsgesetz, das sich von der konventionellen Zwei-Punkt-gegenseitigen Information unterscheidet und unabhängig davon skaliert, ist der Schlüssel zum Verständnis der Langkontext-Sprachmodellierung. Unter Verwendung dieses Skalierungsgesetzes formulieren wir die Langkontext-Sprachmodellierungsbedingung (L^2M), die die Fähigkeit eines Modells zur effektiven Modellierung langer Kontextlängen mit der Skalierung seiner latenten Zustandsgröße zur Speicherung vergangener Informationen in Beziehung setzt. Unsere Ergebnisse werden durch Experimente an Transformern und Zustandsraummodellen validiert. Diese Arbeit legt eine theoretische Grundlage, die die Entwicklung großer Sprachmodelle hin zu längeren Kontextlängen leitet.
English
We rigorously establish a bipartite mutual information scaling law in natural
language that governs long-range dependencies. This scaling law, which we show
is distinct from and scales independently of the conventional two-point mutual
information, is the key to understanding long-context language modeling. Using
this scaling law, we formulate the Long-context Language Modeling (L^2M)
condition, which relates a model's capacity for effective long context length
modeling to the scaling of its latent state size for storing past information.
Our results are validated through experiments on both transformers and state
space models. This work establishes a theoretical foundation that guides the
development of large language models toward longer context lengths.Summary
AI-Generated Summary