Переосмысление адресации в языковых моделях через контекстуализированные эквивариантные позиционные кодирования.

Аннотация

Трансформеры полагаются как на механизмы адресации на основе содержания, так и на механизмы адресации на основе позиции для прогнозирования, однако существующие техники позиционного кодирования часто уменьшают эффективность позиционной адресации. Многие текущие методы накладывают жесткие шаблоны на карты внимания, что ограничивает возможность моделирования долгосрочных зависимостей и адаптации к различным задачам. Кроме того, большинство позиционных кодирований изучаются как общие смещения, лишены специализации, необходимой для различных экземпляров в наборе данных. Для решения этой проблемы мы предлагаем контекстуализированное эквивариантное позиционное вложение (TAPE), новую структуру, улучшающую позиционные вложения за счет включения содержания последовательности на различных уровнях. TAPE вводит динамические, осведомленные о контексте позиционные кодирования, преодолевая ограничения традиционных фиксированных шаблонов. Обеспечивая перестановочную и ортогональную эквивариантность, TAPE гарантирует стабильность позиционных кодирований во время обновлений, улучшая устойчивость и адаптивность. Наш метод легко интегрируется в предварительно обученные трансформеры, предлагая эффективное настройку параметров с минимальными накладными расходами. Обширные эксперименты показывают, что TAPE достигает более высокой производительности в задачах языкового моделирования, арифметического рассуждения и поиска долгих контекстов по сравнению с существующими техниками позиционного вложения.

English

Transformers rely on both content-based and position-based addressing mechanisms to make predictions, but existing positional encoding techniques often diminish the effectiveness of position-based addressing. Many current methods enforce rigid patterns in attention maps, limiting the ability to model long-range dependencies and adapt to diverse tasks. Additionally, most positional encodings are learned as general biases, lacking the specialization required for different instances within a dataset. To address this, we propose conTextualized equivariAnt Position Embedding (TAPE), a novel framework that enhances positional embeddings by incorporating sequence content across layers. TAPE introduces dynamic, context-aware positional encodings, overcoming the constraints of traditional fixed patterns. By enforcing permutation and orthogonal equivariance, TAPE ensures the stability of positional encodings during updates, improving robustness and adaptability. Our method can be easily integrated into pre-trained transformers, offering parameter-efficient fine-tuning with minimal overhead. Extensive experiments shows that TAPE achieves superior performance in language modeling, arithmetic reasoning, and long-context retrieval tasks compared to existing positional embedding techniques.

Переосмысление адресации в языковых моделях через контекстуализированные эквивариантные позиционные кодирования.

Rethinking Addressing in Language Models via Contexualized Equivariant Positional Encoding

Аннотация

Support