Attention Clair-Obscur : Dépenser du Calcul dans l’Ombre

Résumé

Les transformateurs standards appliquent l'auto-attention de manière uniforme à chaque couche et chaque token, indépendamment du fait que l'entrée nécessite ou non une interaction dynamique entre tokens. Nous proposons CHIAR-Former (Chiaroscuro Attention), un transformateur hybride à 4 couches qui achemine chaque token vers l'un des trois opérateurs — mélange spectral par DCT, mélange par noyau RBF ou auto-attention complète — en fonction de l'entropie spectrale par token, un signal de complexité justifié théoriquement. Par une ablation systématique sur WikiText-103, nous découvrons un effondrement du routage : le routeur rejette systématiquement le RBF au profit de la DCT et de l'attention, révélant que le mélange spectral et l'attention dynamique sont complémentaires et suffisants. Une variante conçue spécialement, combinant uniquement DCT et Attention, atteint une PPL de validation de 36,54 sur WikiText-103 — soit une amélioration de 45% par rapport à une ligne de base avec attention complète (PPL 66,62) avec 62,5% de FLOPs d'attention en moins. Nous étendons l'évaluation à WikiText-2, à la classification de sentiments IMDB et aux opérations synthétiques ListOps, établissant un régime d'utilisation clair : CHIAR-Former excelle sur les textes naturalistes à grande échelle où la diversité des tokens favorise la spécialisation spectrale, tandis que l'attention complète conserve un avantage sur les petits jeux de données et les tâches synthétiques de correspondance de motifs. Ces résultats — à la fois les gains et les pertes — définissent ensemble quand et pourquoi le routage spectral justifie son utilisation.

English

Standard transformers apply self-attention uniformly at every layer and token, regardless of whether the input requires dynamic cross-token interaction. We propose CHIAR-Former (Chiaroscuro Attention), a 4-layer hybrid transformer that routes each token to one of three operators - DCT spectral mixing, RBF kernel mixing, or full self-attention - based on per-token spectral entropy, a theoretically justified complexity signal. Through systematic ablation on WikiText-103, we discover routing collapse: the router consistently rejects RBF in favour of DCT and attention, revealing that spectral mixing and dynamic attention are complementary and sufficient. A purpose-designed DCT+Attention-only variant achieves Val PPL 36.54 on WikiText-103 - a 45% improvement over a full-attention baseline (PPL 66.62) at 62.5% fewer attention FLOPs. We extend evaluation to WikiText-2, IMDB sentiment classification, and synthetic ListOps operations, establishing a clear operating regime: CHIAR-Former excels on large-scale naturalistic text where token diversity supports spectral specialisation, while full attention retains an edge on small datasets and synthetic pattern-matching tasks. These findings - both the wins and the losses - together define when and why spectral routing earns its keep.