ChatPaper.aiChatPaper

明暗注意:暗闇で計算を費やす

Chiaroscuro Attention: Spending Compute in the Dark

June 6, 2026
著者: Prateek Kumar Sikdar
cs.AI

要旨

標準的なTransformerは、入力が動的なトークン間相互作用を必要とするかどうかにかかわらず、すべての層とトークンに対して一様に自己注意を適用する。本稿では、理論的に正当化された複雑性の指標であるトークンごとのスペクトルエントロピーに基づき、各トークンをDCTスペクトル混合、RBFカーネル混合、完全自己注意の3つの演算子のいずれかにルーティングする4層ハイブリッドTransformer「CHIAR-Former(キアロスクーロ注意)」を提案する。WikiText-103における体系的なアブレーション研究を通じて、ルーティング崩壊を発見した。すなわち、ルーターは一貫してRBFを拒否しDCTと注意を選択しており、スペクトル混合と動的注意が相補的かつ十分であることを明らかにした。専用に設計されたDCT+注意のみの変種は、WikiText-103上でVal PPL 36.54を達成し、全注意のベースライン(PPL 66.62)と比較して45%の改善を、注意FLOPsを62.5%削減した上で実現した。評価をWikiText-2、IMDB感情分類、合成ListOps演算にも拡張し、明確な動作領域を確立した。CHIAR-Formerは、トークンの多様性がスペクトル特化を支える大規模な自然言語テキストで優れる一方、小規模データセットや合成パターンマッチングタスクでは完全注意が依然として優位性を持つ。これらの結果(成功と失敗の両方)は、スペクトルルーティングがいつ、なぜその価値を発揮するのかを定義するものである。
English
Standard transformers apply self-attention uniformly at every layer and token, regardless of whether the input requires dynamic cross-token interaction. We propose CHIAR-Former (Chiaroscuro Attention), a 4-layer hybrid transformer that routes each token to one of three operators - DCT spectral mixing, RBF kernel mixing, or full self-attention - based on per-token spectral entropy, a theoretically justified complexity signal. Through systematic ablation on WikiText-103, we discover routing collapse: the router consistently rejects RBF in favour of DCT and attention, revealing that spectral mixing and dynamic attention are complementary and sufficient. A purpose-designed DCT+Attention-only variant achieves Val PPL 36.54 on WikiText-103 - a 45% improvement over a full-attention baseline (PPL 66.62) at 62.5% fewer attention FLOPs. We extend evaluation to WikiText-2, IMDB sentiment classification, and synthetic ListOps operations, establishing a clear operating regime: CHIAR-Former excels on large-scale naturalistic text where token diversity supports spectral specialisation, while full attention retains an edge on small datasets and synthetic pattern-matching tasks. These findings - both the wins and the losses - together define when and why spectral routing earns its keep.