Auf dem Weg zum optimalen Lernen von Sprachmodellen
Towards Optimal Learning of Language Models
February 27, 2024
Autoren: Yuxian Gu, Li Dong, Yaru Hao, Qingxiu Dong, Minlie Huang, Furu Wei
cs.AI
Zusammenfassung
Diese Arbeit untersucht die allgemeinen Prinzipien zur Verbesserung des Lernens von Sprachmodellen (Language Models, LMs), mit dem Ziel, die notwendigen Trainingsschritte zur Erreichung überlegener Leistung zu reduzieren. Konkret präsentieren wir eine Theorie für das optimale Lernen von LMs. Zunächst schlagen wir ein Ziel vor, das das Lernen von LMs optimiert, indem es das Datenkompressionsverhältnis in einer "LM-Training-als-verlustfreie-Kompression"-Sicht maximiert. Anschließend leiten wir ein Theorem, genannt Lern-Gesetz, ab, um die Eigenschaften der Dynamik im optimalen Lernprozess unter unserem Ziel aufzuzeigen. Das Theorem wird dann durch Experimente zu einer linearen Klassifikation und einer realen Sprachmodellierungsaufgabe validiert. Schließlich verifizieren wir empirisch, dass das optimale Lernen von LMs im Wesentlichen aus der Verbesserung der Koeffizienten im Skalierungsgesetz von LMs resultiert, was großes Potenzial und Bedeutung für die Entwicklung praktischer Methoden zur Lernbeschleunigung aufzeigt. Unser Code ist unter https://aka.ms/LearningLaw verfügbar.
English
This work studies the general principles of improving the learning of
language models (LMs), which aims at reducing the necessary training steps for
achieving superior performance. Specifically, we present a theory for the
optimal learning of LMs. We first propose an objective that optimizes LM
learning by maximizing the data compression ratio in an
"LM-training-as-lossless-compression" view. Then, we derive a theorem, named
Learning Law, to reveal the properties of the dynamics in the optimal learning
process under our objective. The theorem is then validated by experiments on a
linear classification and a real-world language modeling task. Finally, we
empirically verify that the optimal learning of LMs essentially stems from the
improvement of the coefficients in the scaling law of LMs, indicating great
promise and significance for designing practical learning acceleration methods.
Our code can be found at https://aka.ms/LearningLaw.