Geometrischer Faktenabruf in Transformatoren

Zusammenfassung

Wie speichern Transformatoren-Sprachmodelle faktische Assoziationen? Eine verbreitete Auffassung betrachtet interne Gewichtsmatrizen als assoziative Gedächtnisse über Paare von Einbettungen, was Parameteranzahlen erfordert, die linear mit der Anzahl der Fakten skalieren. Wir entwickeln eine theoretische und empirische Darstellung einer alternativen, geometrischen Form des Speicherns, bei der gelernte Einbettungen relationale Strukturen direkt kodieren und das MLP eine qualitativ andere Rolle spielt. In einer kontrollierten Umgebung, in der ein einschichtiger Transformer zufällige Bijektionen von Subjekten auf eine gemeinsame Attributmenge speichern muss, beweisen wir, dass eine logarithmische Einbettungsdimension ausreicht: Subjekteinbettungen kodieren lineare Überlagerungen ihrer zugehörigen Attributvektoren, und ein kleines MLP fungiert als relationsbedingter Selektor, der das relevante Attribut durch ReLU-Gating extrahiert – und nicht als assoziative Schlüssel-Wert-Abbildung. Wir erweitern diese Ergebnisse auf den Multi-Hop-Kontext – Ketten relationaler Abfragen wie „Wer ist die Mutter der Ehefrau von x?“ – und liefern Konstruktionen mit und ohne Gedankenkette (Chain-of-Thought), die einen beweisbaren Kapazitäts-Tiefen-Kompromiss aufweisen, ergänzt durch eine passende informationstheoretische untere Schranke. Empirisch entdeckt der Gradientenabstieg Lösungen mit genau der vorhergesagten Struktur. Nach dem Training überträgt sich das MLP mittels Zero-Shot auf völlig neue Bijektionen, wenn die Subjekteinbettungen entsprechend neu initialisiert werden, was zeigt, dass es einen generischen Selektionsmechanismus gelernt hat, anstatt sich eine bestimmte Menge von Fakten eingeprägt zu haben.

English

How do transformer language models memorize factual associations? A common view casts internal weight matrices as associative memories over pairs of embeddings, requiring parameter counts that scale linearly with the number of facts. We develop a theoretical and empirical account of an alternative, geometric form of memorization in which learned embeddings encode relational structure directly, and the MLP plays a qualitatively different role. In a controlled setting where a single-layer transformer must memorize random bijections from subjects to a shared attribute set, we prove that a logarithmic embedding dimension suffices: subject embeddings encode linear superpositions of their associated attribute vectors, and a small MLP acts as a relation-conditioned selector that extracts the relevant attribute via ReLU gating, and not as an associative key-value mapping. We extend these results to the multi-hop setting -- chains of relational queries such as ``Who is the mother of the wife of x?'' -- providing constructions with and without chain-of-thought that exhibit a provable capacity-depth tradeoff, complemented by a matching information-theoretic lower bound. Empirically, gradient descent discovers solutions with precisely the predicted structure. Once trained, the MLP transfers zero-shot to entirely new bijections when subject embeddings are appropriately re-initialized, revealing that it has learned a generic selection mechanism rather than memorized any particular set of facts.

Geometrischer Faktenabruf in Transformatoren

Geometric Factual Recall in Transformers

Zusammenfassung

Support