Transformador diferencial
Differential Transformer
October 7, 2024
Autores: Tianzhu Ye, Li Dong, Yuqing Xia, Yutao Sun, Yi Zhu, Gao Huang, Furu Wei
cs.AI
Resumen
El Transformer tiende a asignar demasiada atención a contextos irrelevantes. En este trabajo, presentamos el Diferencial Transformer, que amplifica la atención al contexto relevante mientras cancela el ruido. Específicamente, el mecanismo de atención diferencial calcula puntuaciones de atención como la diferencia entre dos mapas de atención softmax separados. La resta cancela el ruido, promoviendo la aparición de patrones de atención dispersos. Los resultados experimentales en modelado de lenguaje muestran que el Diferencial Transformer supera al Transformer en varios ajustes de aumento del tamaño del modelo y tokens de entrenamiento. Más intrigantemente, ofrece ventajas notables en aplicaciones prácticas, como modelado de largo contexto, recuperación de información clave, mitigación de alucinaciones, aprendizaje en contexto y reducción de valores atípicos de activación. Al estar menos distraído por el contexto irrelevante, el Diferencial Transformer puede mitigar la alucinación en la respuesta a preguntas y en la sumarización de textos. Para el aprendizaje en contexto, el Diferencial Transformer no solo mejora la precisión, sino que también es más robusto a la permutación de órdenes, que se consideraba un problema crónico de robustez. Los resultados sitúan al Diferencial Transformer como una arquitectura altamente efectiva y prometedora para avanzar en modelos de lenguaje grandes.
English
Transformer tends to overallocate attention to irrelevant context. In this
work, we introduce Diff Transformer, which amplifies attention to the relevant
context while canceling noise. Specifically, the differential attention
mechanism calculates attention scores as the difference between two separate
softmax attention maps. The subtraction cancels noise, promoting the emergence
of sparse attention patterns. Experimental results on language modeling show
that Diff Transformer outperforms Transformer in various settings of scaling up
model size and training tokens. More intriguingly, it offers notable advantages
in practical applications, such as long-context modeling, key information
retrieval, hallucination mitigation, in-context learning, and reduction of
activation outliers. By being less distracted by irrelevant context, Diff
Transformer can mitigate hallucination in question answering and text
summarization. For in-context learning, Diff Transformer not only enhances
accuracy but is also more robust to order permutation, which was considered as
a chronic robustness issue. The results position Diff Transformer as a highly
effective and promising architecture to advance large language models.Summary
AI-Generated Summary