Neubewertung der Adressierung in Sprachmodellen durch kontextualisierte äquivariante Positionscodierung.

Rethinking Addressing in Language Models via Contexualized Equivariant Positional Encoding

January 1, 2025
Autoren: Jiajun Zhu, Peihao Wang, Ruisi Cai, Jason D. Lee, Pan Li, Zhangyang Wang
cs.AI

Zusammenfassung

Transformer verlassen sich auf sowohl inhaltsbasierte als auch positionsbasierte Adressierungsmechanismen, um Vorhersagen zu treffen, aber bestehende Positionscodierungstechniken mindern oft die Effektivität der positionsbasierten Adressierung. Viele aktuelle Methoden erzwingen starre Muster in Aufmerksamkeitskarten, was die Fähigkeit zur Modellierung von weitreichenden Abhängigkeiten und zur Anpassung an vielfältige Aufgaben einschränkt. Zusätzlich werden die meisten Positionscodierungen als allgemeine Verzerrungen erlernt, die die Spezialisierung für verschiedene Instanzen innerhalb eines Datensatzes vermissen lassen. Um dem entgegenzuwirken, schlagen wir die Verwendung von kontextualisierten äquivarianten Positions-Embeddings (TAPE) vor, ein neuartiges Framework, das positionale Embeddings durch die Einbeziehung von Sequenzinhalten über Schichten hinweg verbessert. TAPE führt dynamische, kontextbewusste Positionscodierungen ein, die die Einschränkungen traditioneller fester Muster überwinden. Durch die Durchsetzung von Permutations- und orthogonalen Äquivarianzen gewährleistet TAPE die Stabilität der Positionscodierungen während der Aktualisierungen, was die Robustheit und Anpassungsfähigkeit verbessert. Unsere Methode kann einfach in vorab trainierte Transformer integriert werden und bietet eine parameter-effiziente Feinabstimmung mit minimalem Overhead. Umfangreiche Experimente zeigen, dass TAPE eine überlegene Leistung bei der Sprachmodellierung, arithmetischen Schlussfolgerungen und Langkontext-Abrufaufgaben im Vergleich zu bestehenden Positionscodierungstechniken erzielt.
English
Transformers rely on both content-based and position-based addressing mechanisms to make predictions, but existing positional encoding techniques often diminish the effectiveness of position-based addressing. Many current methods enforce rigid patterns in attention maps, limiting the ability to model long-range dependencies and adapt to diverse tasks. Additionally, most positional encodings are learned as general biases, lacking the specialization required for different instances within a dataset. To address this, we propose conTextualized equivariAnt Position Embedding (TAPE), a novel framework that enhances positional embeddings by incorporating sequence content across layers. TAPE introduces dynamic, context-aware positional encodings, overcoming the constraints of traditional fixed patterns. By enforcing permutation and orthogonal equivariance, TAPE ensures the stability of positional encodings during updates, improving robustness and adaptability. Our method can be easily integrated into pre-trained transformers, offering parameter-efficient fine-tuning with minimal overhead. Extensive experiments shows that TAPE achieves superior performance in language modeling, arithmetic reasoning, and long-context retrieval tasks compared to existing positional embedding techniques.
PDF64January 3, 2025