Chiaroscuro-Aufmerksamkeit: Rechenleistung im Dunkeln ausgeben

Zusammenfassung

Standard-Transformer wenden Self-Attention einheitlich auf jeder Schicht und für jedes Token an, unabhängig davon, ob die Eingabe eine dynamische Kreuztoken-Interaktion erfordert. Wir schlagen CHIAR-Former (Chiaroscuro Attention) vor, einen hybriden Transformer mit vier Schichten, der jedes Token basierend auf der spektralen Entropie pro Token, einem theoretisch begründeten Komplexitätssignal, einem von drei Operatoren zuweist – DCT-Spektralmischung, RBF-Kernel-Mischung oder vollständiger Self-Attention. Durch systematische Ablation auf WikiText-103 entdecken wir ein Routing-Collapse: Der Router lehnt RBF konsequent zugunsten von DCT und Attention ab, was zeigt, dass Spektralmischung und dynamische Attention komplementär und ausreichend sind. Eine speziell entwickelte Variante mit nur DCT+Attention erreicht auf WikiText-103 ein Val PPL von 36,54 – eine Verbesserung um 45 % gegenüber einer Full-Attention-Baseline (PPL 66,62) bei 62,5 % weniger Attention-FLOPs. Wir erweitern die Evaluierung auf WikiText-2, IMDB-Sentiment-Klassifikation und synthetische ListOps-Operationen und etablieren ein klares Einsatzgebiet: CHIAR-Former übertrifft auf großskaligen natürlichen Texten, wo die Token-Diversität spektrale Spezialisierung unterstützt, während Full-Attention bei kleinen Datensätzen und synthetischen Mustererkennungsaufgaben weiterhin Vorteile bietet. Diese Ergebnisse – sowohl die Erfolge als auch die Misserfolge – definieren gemeinsam, wann und warum sich spektrales Routing lohnt.

English

Standard transformers apply self-attention uniformly at every layer and token, regardless of whether the input requires dynamic cross-token interaction. We propose CHIAR-Former (Chiaroscuro Attention), a 4-layer hybrid transformer that routes each token to one of three operators - DCT spectral mixing, RBF kernel mixing, or full self-attention - based on per-token spectral entropy, a theoretically justified complexity signal. Through systematic ablation on WikiText-103, we discover routing collapse: the router consistently rejects RBF in favour of DCT and attention, revealing that spectral mixing and dynamic attention are complementary and sufficient. A purpose-designed DCT+Attention-only variant achieves Val PPL 36.54 on WikiText-103 - a 45% improvement over a full-attention baseline (PPL 66.62) at 62.5% fewer attention FLOPs. We extend evaluation to WikiText-2, IMDB sentiment classification, and synthetic ListOps operations, establishing a clear operating regime: CHIAR-Former excels on large-scale naturalistic text where token diversity supports spectral specialisation, while full attention retains an edge on small datasets and synthetic pattern-matching tasks. These findings - both the wins and the losses - together define when and why spectral routing earns its keep.