Repenser l'adressage dans les modèles de langage via un encodage positionnel équivariant contextualisé
Rethinking Addressing in Language Models via Contexualized Equivariant Positional Encoding
January 1, 2025
Auteurs: Jiajun Zhu, Peihao Wang, Ruisi Cai, Jason D. Lee, Pan Li, Zhangyang Wang
cs.AI
Résumé
Les Transformers s'appuient à la fois sur des mécanismes d'adressage basés sur le contenu et sur la position pour faire des prédictions, mais les techniques d'encodage de position existantes diminuent souvent l'efficacité de l'adressage basé sur la position. De nombreuses méthodes actuelles imposent des schémas rigides dans les cartes d'attention, limitant la capacité à modéliser des dépendances à longue distance et à s'adapter à des tâches diverses. De plus, la plupart des encodages de position sont appris en tant que biais généraux, manquant de la spécialisation requise pour différentes instances au sein d'un ensemble de données. Pour remédier à cela, nous proposons l'incorporation d'Encodage de Position Equivariant Contextualisé (TAPE), un nouveau cadre qui améliore les encodages de position en incorporant le contenu de séquence à travers les couches. TAPE introduit des encodages de position dynamiques et conscients du contexte, surmontant les contraintes des schémas fixes traditionnels. En imposant l'équivariance de permutation et orthogonale, TAPE garantit la stabilité des encodages de position lors des mises à jour, améliorant la robustesse et l'adaptabilité. Notre méthode peut être facilement intégrée dans des transformers pré-entraînés, offrant un ajustement fin efficace en termes de paramètres avec un surcoût minimal. Des expériences approfondies montrent que TAPE atteint des performances supérieures en modélisation de langage, raisonnement arithmétique et tâches de récupération de long contexte par rapport aux techniques d'encodage de position existantes.
English
Transformers rely on both content-based and position-based addressing
mechanisms to make predictions, but existing positional encoding techniques
often diminish the effectiveness of position-based addressing. Many current
methods enforce rigid patterns in attention maps, limiting the ability to model
long-range dependencies and adapt to diverse tasks. Additionally, most
positional encodings are learned as general biases, lacking the specialization
required for different instances within a dataset. To address this, we propose
conTextualized equivariAnt Position
Embedding (TAPE), a novel framework that enhances
positional embeddings by incorporating sequence content across layers. TAPE
introduces dynamic, context-aware positional encodings, overcoming the
constraints of traditional fixed patterns. By enforcing permutation and
orthogonal equivariance, TAPE ensures the stability of positional encodings
during updates, improving robustness and adaptability. Our method can be easily
integrated into pre-trained transformers, offering parameter-efficient
fine-tuning with minimal overhead. Extensive experiments shows that TAPE
achieves superior performance in language modeling, arithmetic reasoning, and
long-context retrieval tasks compared to existing positional embedding
techniques.Summary
AI-Generated Summary