Heroverweging van Adressering in Taalmodellen via Gecontextualiseerde Equivalentie-Positionele Codering
Rethinking Addressing in Language Models via Contexualized Equivariant Positional Encoding
January 1, 2025
Auteurs: Jiajun Zhu, Peihao Wang, Ruisi Cai, Jason D. Lee, Pan Li, Zhangyang Wang
cs.AI
Samenvatting
Transformers vertrouwen op zowel inhoudsgebaseerde als positiegebaseerde adresseringsmechanismen om voorspellingen te doen, maar bestaande positionele encoderingstechnieken verminderen vaak de effectiviteit van positiegebaseerde adressering. Veel huidige methoden leggen rigide patronen op in aandachtskaarten, waardoor de mogelijkheid om langeafhankelijkheden te modelleren en zich aan te passen aan diverse taken wordt beperkt. Bovendien worden de meeste positionele encoderingen geleerd als algemene vooroordelen, wat de specialisatie mist die nodig is voor verschillende instanties binnen een dataset. Om dit aan te pakken, stellen we conTextualized equivariAnt Position Embedding (TAPE) voor, een nieuw raamwerk dat positionele encoderingen verbetert door sequentie-inhoud over lagen heen op te nemen. TAPE introduceert dynamische, contextbewuste positionele encoderingen, waardoor de beperkingen van traditionele vaste patronen worden overwonnen. Door permutatie en orthogonale equivariantie af te dwingen, zorgt TAPE voor de stabiliteit van positionele encoderingen tijdens updates, wat de robuustheid en aanpasbaarheid verbetert. Onze methode kan eenvoudig worden geïntegreerd in vooraf getrainde transformers, met parameter-efficiënte fine-tuning met minimale overhead. Uitgebreide experimenten tonen aan dat TAPE superieure prestaties behaalt bij taalmodellering, rekenkundige redenering en taken voor het ophalen van lange context in vergelijking met bestaande positionele encoderingstechnieken.
English
Transformers rely on both content-based and position-based addressing
mechanisms to make predictions, but existing positional encoding techniques
often diminish the effectiveness of position-based addressing. Many current
methods enforce rigid patterns in attention maps, limiting the ability to model
long-range dependencies and adapt to diverse tasks. Additionally, most
positional encodings are learned as general biases, lacking the specialization
required for different instances within a dataset. To address this, we propose
conTextualized equivariAnt Position
Embedding (TAPE), a novel framework that enhances
positional embeddings by incorporating sequence content across layers. TAPE
introduces dynamic, context-aware positional encodings, overcoming the
constraints of traditional fixed patterns. By enforcing permutation and
orthogonal equivariance, TAPE ensures the stability of positional encodings
during updates, improving robustness and adaptability. Our method can be easily
integrated into pre-trained transformers, offering parameter-efficient
fine-tuning with minimal overhead. Extensive experiments shows that TAPE
achieves superior performance in language modeling, arithmetic reasoning, and
long-context retrieval tasks compared to existing positional embedding
techniques.Summary
AI-Generated Summary