Jenseits von Skalierungsgesetzen: Verständnis der Leistungsfähigkeit von Transformatoren mit assoziativem GedächtnisBeyond Scaling Laws: Understanding Transformer Performance with
Associative Memory
Die Vergrößerung eines Transformer-Modells führt nicht immer zu einer verbesserten Leistung. Dieses Phänomen kann nicht durch die empirischen Skalierungsgesetze erklärt werden. Darüber hinaus tritt eine verbesserte Verallgemeinerungsfähigkeit auf, wenn das Modell die Trainingsdaten auswendig lernt. Wir präsentieren einen theoretischen Rahmen, der Licht auf den Memorisierungsprozess und die Leistungsdynamik von auf Transformatoren basierenden Sprachmodellen wirft. Wir modellieren das Verhalten von Transformatoren mit assoziativen Gedächtnissen unter Verwendung von Hopfield-Netzwerken, so dass jeder Transformer-Block effektiv eine ungefähre nächste-Nachbar-Suche durchführt. Basierend darauf entwerfen wir eine Energiefunktion, die der in modernen kontinuierlichen Hopfield-Netzwerken ähnelt und eine aufschlussreiche Erklärung für den Aufmerksamkeitsmechanismus liefert. Unter Verwendung der Majorisierungs-Minimierungs-Technik konstruieren wir eine globale Energiefunktion, die die geschichtete Architektur des Transformers erfasst. Unter spezifischen Bedingungen zeigen wir, dass der minimal erreichbare Kreuzentropieverlust von unten durch eine Konstante begrenzt ist, die ungefähr gleich 1 ist. Wir untermauern unsere theoretischen Ergebnisse, indem wir Experimente mit GPT-2 in verschiedenen Datengrößen sowie das Training von einfachen Transformatoren auf einem Datensatz von 2 Millionen Tokens durchführen.