Reconsideración de la Dirección en Modelos de Lenguaje a través de la Codificación Posicional Equivariante Contextualizada
Rethinking Addressing in Language Models via Contexualized Equivariant Positional Encoding
January 1, 2025
Autores: Jiajun Zhu, Peihao Wang, Ruisi Cai, Jason D. Lee, Pan Li, Zhangyang Wang
cs.AI
Resumen
Los Transformers dependen tanto de mecanismos de direccionamiento basados en contenido como en posición para realizar predicciones, pero las técnicas de codificación posicional existentes a menudo disminuyen la efectividad del direccionamiento basado en posición. Muchos métodos actuales imponen patrones rígidos en los mapas de atención, limitando la capacidad de modelar dependencias a largo plazo y adaptarse a diversas tareas. Además, la mayoría de las codificaciones posicionales se aprenden como sesgos generales, careciendo de la especialización requerida para diferentes instancias dentro de un conjunto de datos. Para abordar esto, proponemos la Incrustación Posicional Equivariante Contextualizada (TAPE, por sus siglas en inglés), un marco novedoso que mejora las incrustaciones posicionales al incorporar contenido de secuencia a lo largo de las capas. TAPE introduce codificaciones posicionales dinámicas y conscientes del contexto, superando las limitaciones de los patrones fijos tradicionales. Al hacer cumplir la equivarianza de permutación y ortogonal, TAPE garantiza la estabilidad de las codificaciones posicionales durante las actualizaciones, mejorando la robustez y la adaptabilidad. Nuestro método se puede integrar fácilmente en transformers pre-entrenados, ofreciendo un ajuste fino eficiente en parámetros con un sobrecoste mínimo. Experimentos extensos muestran que TAPE logra un rendimiento superior en modelado de lenguaje, razonamiento aritmético y tareas de recuperación de largo contexto en comparación con las técnicas de incrustación posicional existentes.
English
Transformers rely on both content-based and position-based addressing
mechanisms to make predictions, but existing positional encoding techniques
often diminish the effectiveness of position-based addressing. Many current
methods enforce rigid patterns in attention maps, limiting the ability to model
long-range dependencies and adapt to diverse tasks. Additionally, most
positional encodings are learned as general biases, lacking the specialization
required for different instances within a dataset. To address this, we propose
conTextualized equivariAnt Position
Embedding (TAPE), a novel framework that enhances
positional embeddings by incorporating sequence content across layers. TAPE
introduces dynamic, context-aware positional encodings, overcoming the
constraints of traditional fixed patterns. By enforcing permutation and
orthogonal equivariance, TAPE ensures the stability of positional encodings
during updates, improving robustness and adaptability. Our method can be easily
integrated into pre-trained transformers, offering parameter-efficient
fine-tuning with minimal overhead. Extensive experiments shows that TAPE
achieves superior performance in language modeling, arithmetic reasoning, and
long-context retrieval tasks compared to existing positional embedding
techniques.