Transformador DiferencialDifferential Transformer
O Transformer tende a alocar excessivamente a atenção a contextos irrelevantes. Neste trabalho, apresentamos o Diff Transformer, que amplifica a atenção ao contexto relevante enquanto cancela o ruído. Especificamente, o mecanismo de atenção diferencial calcula os escores de atenção como a diferença entre dois mapas de atenção softmax separados. A subtração cancela o ruído, promovendo o surgimento de padrões de atenção esparsos. Resultados experimentais em modelagem de linguagem mostram que o Diff Transformer supera o Transformer em várias configurações de aumento do tamanho do modelo e tokens de treinamento. Mais intrigante ainda, ele oferece vantagens notáveis em aplicações práticas, como modelagem de longos contextos, recuperação de informações-chave, mitigação de alucinações, aprendizado em contexto e redução de valores atípicos de ativação. Ao ser menos distraído por contextos irrelevantes, o Diff Transformer pode mitigar alucinações em perguntas e respostas e sumarização de texto. Para o aprendizado em contexto, o Diff Transformer não apenas aprimora a precisão, mas também é mais robusto à permutação de ordem, que era considerada um problema crônico de robustez. Os resultados posicionam o Diff Transformer como uma arquitetura altamente eficaz e promissora para avançar em grandes modelos de linguagem.