Heroverweging van Adressering in Taalmodellen via Gecontextualiseerde Equivalentie-Positionele Codering

Samenvatting

Transformers vertrouwen op zowel inhoudsgebaseerde als positiegebaseerde adresseringsmechanismen om voorspellingen te doen, maar bestaande positionele encoderingstechnieken verminderen vaak de effectiviteit van positiegebaseerde adressering. Veel huidige methoden leggen rigide patronen op in aandachtskaarten, waardoor de mogelijkheid om langeafhankelijkheden te modelleren en zich aan te passen aan diverse taken wordt beperkt. Bovendien worden de meeste positionele encoderingen geleerd als algemene vooroordelen, wat de specialisatie mist die nodig is voor verschillende instanties binnen een dataset. Om dit aan te pakken, stellen we conTextualized equivariAnt Position Embedding (TAPE) voor, een nieuw raamwerk dat positionele encoderingen verbetert door sequentie-inhoud over lagen heen op te nemen. TAPE introduceert dynamische, contextbewuste positionele encoderingen, waardoor de beperkingen van traditionele vaste patronen worden overwonnen. Door permutatie en orthogonale equivariantie af te dwingen, zorgt TAPE voor de stabiliteit van positionele encoderingen tijdens updates, wat de robuustheid en aanpasbaarheid verbetert. Onze methode kan eenvoudig worden geïntegreerd in vooraf getrainde transformers, met parameter-efficiënte fine-tuning met minimale overhead. Uitgebreide experimenten tonen aan dat TAPE superieure prestaties behaalt bij taalmodellering, rekenkundige redenering en taken voor het ophalen van lange context in vergelijking met bestaande positionele encoderingstechnieken.

English

Transformers rely on both content-based and position-based addressing mechanisms to make predictions, but existing positional encoding techniques often diminish the effectiveness of position-based addressing. Many current methods enforce rigid patterns in attention maps, limiting the ability to model long-range dependencies and adapt to diverse tasks. Additionally, most positional encodings are learned as general biases, lacking the specialization required for different instances within a dataset. To address this, we propose conTextualized equivariAnt Position Embedding (TAPE), a novel framework that enhances positional embeddings by incorporating sequence content across layers. TAPE introduces dynamic, context-aware positional encodings, overcoming the constraints of traditional fixed patterns. By enforcing permutation and orthogonal equivariance, TAPE ensures the stability of positional encodings during updates, improving robustness and adaptability. Our method can be easily integrated into pre-trained transformers, offering parameter-efficient fine-tuning with minimal overhead. Extensive experiments shows that TAPE achieves superior performance in language modeling, arithmetic reasoning, and long-context retrieval tasks compared to existing positional embedding techniques.

Heroverweging van Adressering in Taalmodellen via Gecontextualiseerde Equivalentie-Positionele Codering

Rethinking Addressing in Language Models via Contexualized Equivariant Positional Encoding

Samenvatting

Summary

Support

Support