Transformador diferencial

Resumen

El Transformer tiende a asignar demasiada atención a contextos irrelevantes. En este trabajo, presentamos el Diferencial Transformer, que amplifica la atención al contexto relevante mientras cancela el ruido. Específicamente, el mecanismo de atención diferencial calcula puntuaciones de atención como la diferencia entre dos mapas de atención softmax separados. La resta cancela el ruido, promoviendo la aparición de patrones de atención dispersos. Los resultados experimentales en modelado de lenguaje muestran que el Diferencial Transformer supera al Transformer en varios ajustes de aumento del tamaño del modelo y tokens de entrenamiento. Más intrigantemente, ofrece ventajas notables en aplicaciones prácticas, como modelado de largo contexto, recuperación de información clave, mitigación de alucinaciones, aprendizaje en contexto y reducción de valores atípicos de activación. Al estar menos distraído por el contexto irrelevante, el Diferencial Transformer puede mitigar la alucinación en la respuesta a preguntas y en la sumarización de textos. Para el aprendizaje en contexto, el Diferencial Transformer no solo mejora la precisión, sino que también es más robusto a la permutación de órdenes, que se consideraba un problema crónico de robustez. Los resultados sitúan al Diferencial Transformer como una arquitectura altamente efectiva y prometedora para avanzar en modelos de lenguaje grandes.

English

Transformer tends to overallocate attention to irrelevant context. In this work, we introduce Diff Transformer, which amplifies attention to the relevant context while canceling noise. Specifically, the differential attention mechanism calculates attention scores as the difference between two separate softmax attention maps. The subtraction cancels noise, promoting the emergence of sparse attention patterns. Experimental results on language modeling show that Diff Transformer outperforms Transformer in various settings of scaling up model size and training tokens. More intriguingly, it offers notable advantages in practical applications, such as long-context modeling, key information retrieval, hallucination mitigation, in-context learning, and reduction of activation outliers. By being less distracted by irrelevant context, Diff Transformer can mitigate hallucination in question answering and text summarization. For in-context learning, Diff Transformer not only enhances accuracy but is also more robust to order permutation, which was considered as a chronic robustness issue. The results position Diff Transformer as a highly effective and promising architecture to advance large language models.

Transformador diferencial

Differential Transformer

Resumen

Support