ChatPaper.aiChatPaper

Atenção Causal com Chaves de Antecipação

Causal Attention with Lookahead Keys

September 9, 2025
Autores: Zhuoqing Song, Peng Sun, Huizhuo Yuan, Quanquan Gu
cs.AI

Resumo

Na atenção causal padrão, a consulta, chave e valor (QKV) de cada token são estáticos e codificam apenas o contexto precedente. Introduzimos a atenção CAuSal com Chaves de Antecipação (CASTLE), um mecanismo de atenção que atualiza continuamente as chaves de cada token à medida que o contexto se desdobra. Denominamos essas chaves atualizadas como chaves de antecipação porque pertencem a posições anteriores, mas integram informações de tokens que aparecem posteriormente em relação a essas posições, preservando estritamente a propriedade autorregressiva. Embora o mecanismo pareça sequencial, derivamos uma equivalência matemática que evita a materialização explícita das chaves de antecipação em cada posição e permite um treinamento paralelo eficiente. Em benchmarks de modelagem de linguagem, o CASTLE supera consistentemente a atenção causal padrão em diferentes escalas de modelos, reduzindo a perplexidade de validação e melhorando o desempenho em uma variedade de tarefas subsequentes.
English
In standard causal attention, each token's query, key, and value (QKV) are static and encode only preceding context. We introduce CAuSal aTtention with Lookahead kEys (CASTLE), an attention mechanism that continually updates each token's keys as the context unfolds. We term these updated keys lookahead keys because they belong to earlier positions yet integrate information from tokens that appear later relative to those positions, while strictly preserving the autoregressive property. Although the mechanism appears sequential, we derive a mathematical equivalence that avoids explicitly materializing lookahead keys at each position and enables efficient parallel training. On language modeling benchmarks, CASTLE consistently outperforms standard causal attention across model scales, reducing validation perplexity and improving performance on a range of downstream tasks.
PDF162September 10, 2025