Transformador diferencialDifferential Transformer
El Transformer tiende a asignar demasiada atención a contextos irrelevantes. En este trabajo, presentamos el Diferencial Transformer, que amplifica la atención al contexto relevante mientras cancela el ruido. Específicamente, el mecanismo de atención diferencial calcula puntuaciones de atención como la diferencia entre dos mapas de atención softmax separados. La resta cancela el ruido, promoviendo la aparición de patrones de atención dispersos. Los resultados experimentales en modelado de lenguaje muestran que el Diferencial Transformer supera al Transformer en varios ajustes de aumento del tamaño del modelo y tokens de entrenamiento. Más intrigantemente, ofrece ventajas notables en aplicaciones prácticas, como modelado de largo contexto, recuperación de información clave, mitigación de alucinaciones, aprendizaje en contexto y reducción de valores atípicos de activación. Al estar menos distraído por el contexto irrelevante, el Diferencial Transformer puede mitigar la alucinación en la respuesta a preguntas y en la sumarización de textos. Para el aprendizaje en contexto, el Diferencial Transformer no solo mejora la precisión, sino que también es más robusto a la permutación de órdenes, que se consideraba un problema crónico de robustez. Los resultados sitúan al Diferencial Transformer como una arquitectura altamente efectiva y prometedora para avanzar en modelos de lenguaje grandes.