Atenção Claro-Escuro: Gastando Computação no Escuro

Resumo

Transformadores padrão aplicam autoatenção uniformemente em cada camada e token, independentemente de a entrada exigir interação dinâmica entre tokens. Propomos o CHIAR-Former (Chiaroscuro Attention), um transformador híbrido de 4 camadas que encaminha cada token para um de três operadores - mistura espectral DCT, mistura de kernel RBF ou autoatenção total - com base na entropia espectral por token, um sinal de complexidade teoricamente justificado. Através de ablação sistemática no WikiText-103, descobrimos colapso de roteamento: o roteador rejeita consistentemente o RBF em favor do DCT e da autoatenção, revelando que a mistura espectral e a atenção dinâmica são complementares e suficientes. Uma variante DCT+Atenção, projetada para esse fim, alcança Perplexidade de Validação (PPL) 36,54 no WikiText-103 - uma melhoria de 45% em relação à linha de base de atenção total (PPL 66,62) com 62,5% menos FLOPs de atenção. Estendemos a avaliação para WikiText-2, classificação de sentimentos IMDB e operações sintéticas ListOps, estabelecendo um regime de operação claro: CHIAR-Former se destaca em textos naturalísticos de grande escala, onde a diversidade de tokens suporta a especialização espectral, enquanto a atenção total mantém vantagem em conjuntos de dados pequenos e tarefas sintéticas de correspondência de padrões. Essas descobertas - tanto os ganhos quanto as perdas - definem conjuntamente quando e por que o roteamento espectral vale a pena.

English

Standard transformers apply self-attention uniformly at every layer and token, regardless of whether the input requires dynamic cross-token interaction. We propose CHIAR-Former (Chiaroscuro Attention), a 4-layer hybrid transformer that routes each token to one of three operators - DCT spectral mixing, RBF kernel mixing, or full self-attention - based on per-token spectral entropy, a theoretically justified complexity signal. Through systematic ablation on WikiText-103, we discover routing collapse: the router consistently rejects RBF in favour of DCT and attention, revealing that spectral mixing and dynamic attention are complementary and sufficient. A purpose-designed DCT+Attention-only variant achieves Val PPL 36.54 on WikiText-103 - a 45% improvement over a full-attention baseline (PPL 66.62) at 62.5% fewer attention FLOPs. We extend evaluation to WikiText-2, IMDB sentiment classification, and synthetic ListOps operations, establishing a clear operating regime: CHIAR-Former excels on large-scale naturalistic text where token diversity supports spectral specialisation, while full attention retains an edge on small datasets and synthetic pattern-matching tasks. These findings - both the wins and the losses - together define when and why spectral routing earns its keep.