Переосмысление адресации в языковых моделях через контекстуализированные эквивариантные позиционные кодирования.
Rethinking Addressing in Language Models via Contexualized Equivariant Positional Encoding
January 1, 2025
Авторы: Jiajun Zhu, Peihao Wang, Ruisi Cai, Jason D. Lee, Pan Li, Zhangyang Wang
cs.AI
Аннотация
Трансформеры полагаются как на механизмы адресации на основе содержания, так и на механизмы адресации на основе позиции для прогнозирования, однако существующие техники позиционного кодирования часто уменьшают эффективность позиционной адресации. Многие текущие методы накладывают жесткие шаблоны на карты внимания, что ограничивает возможность моделирования долгосрочных зависимостей и адаптации к различным задачам. Кроме того, большинство позиционных кодирований изучаются как общие смещения, лишены специализации, необходимой для различных экземпляров в наборе данных. Для решения этой проблемы мы предлагаем контекстуализированное эквивариантное позиционное вложение (TAPE), новую структуру, улучшающую позиционные вложения за счет включения содержания последовательности на различных уровнях. TAPE вводит динамические, осведомленные о контексте позиционные кодирования, преодолевая ограничения традиционных фиксированных шаблонов. Обеспечивая перестановочную и ортогональную эквивариантность, TAPE гарантирует стабильность позиционных кодирований во время обновлений, улучшая устойчивость и адаптивность. Наш метод легко интегрируется в предварительно обученные трансформеры, предлагая эффективное настройку параметров с минимальными накладными расходами. Обширные эксперименты показывают, что TAPE достигает более высокой производительности в задачах языкового моделирования, арифметического рассуждения и поиска долгих контекстов по сравнению с существующими техниками позиционного вложения.
English
Transformers rely on both content-based and position-based addressing
mechanisms to make predictions, but existing positional encoding techniques
often diminish the effectiveness of position-based addressing. Many current
methods enforce rigid patterns in attention maps, limiting the ability to model
long-range dependencies and adapt to diverse tasks. Additionally, most
positional encodings are learned as general biases, lacking the specialization
required for different instances within a dataset. To address this, we propose
conTextualized equivariAnt Position
Embedding (TAPE), a novel framework that enhances
positional embeddings by incorporating sequence content across layers. TAPE
introduces dynamic, context-aware positional encodings, overcoming the
constraints of traditional fixed patterns. By enforcing permutation and
orthogonal equivariance, TAPE ensures the stability of positional encodings
during updates, improving robustness and adaptability. Our method can be easily
integrated into pre-trained transformers, offering parameter-efficient
fine-tuning with minimal overhead. Extensive experiments shows that TAPE
achieves superior performance in language modeling, arithmetic reasoning, and
long-context retrieval tasks compared to existing positional embedding
techniques.Summary
AI-Generated Summary