Ihr Transformer ist heimlich linear.Your Transformer is Secretly Linear
Dieses Paper enthüllt eine neuartige lineare Eigenschaft, die ausschließlich für Transformer-Decodierer gilt, einschließlich Modelle wie GPT, LLaMA, OPT, BLOOM und andere. Wir analysieren die Einbettungstransformationen zwischen aufeinanderfolgenden Schichten und decken eine nahezu perfekte lineare Beziehung auf (Prokrustes-Ähnlichkeitsscore von 0,99). Die Linearität nimmt jedoch ab, wenn die Restkomponente aufgrund einer konstant niedrigen Ausgangsnorm der Transformer-Schicht entfernt wird. Unsere Experimente zeigen, dass das Entfernen oder lineare Approximieren einiger der linearsten Blöcke von Transformern den Verlust oder die Modellleistung nicht signifikant beeinflusst. Darüber hinaus führen wir in unseren Pretraining-Experimenten mit kleineren Modellen eine Regularisierung auf Basis der Kosinus-Ähnlichkeit ein, die darauf abzielt, die Schichtenlinearität zu reduzieren. Diese Regularisierung verbessert Leistungsmetriken auf Benchmarks wie Tiny Stories und SuperGLUE und verringert erfolgreich die Linearität der Modelle. Diese Studie stellt das bestehende Verständnis von Transformer-Architekturen in Frage und legt nahe, dass ihr Betrieb möglicherweise linearer ist als bisher angenommen.