Кьяроскуро-внимание: трата вычислений в темноте

Аннотация

Стандартные трансформеры применяют самовнимание единообразно на каждом слое и для каждого токена, независимо от того, требует ли входной сигнал динамического взаимодействия между токенами. Мы предлагаем CHIAR-Former (Chiaroscuro Attention) — гибридный трансформер с 4 слоями, который направляет каждый токен к одному из трёх операторов — спектральному смешиванию через ДКП, смешиванию с помощью РБФ-ядра или полному самовниманию — на основе спектральной энтропии токена, теоретически обоснованного сигнала сложности. С помощью систематического абляции на WikiText-103 мы обнаруживаем коллапс маршрутизации: маршрутизатор последовательно отвергает РБФ в пользу ДКП и самовнимания, что указывает на то, что спектральное смешивание и динамическое внимание являются взаимодополняющими и достаточными. Целенаправленный вариант, использующий только ДКП и самовнимание, достигает Val PPL 36.54 на WikiText-103 — улучшение на 45% по сравнению с базовой моделью с полным вниманием (PPL 66.62) при сокращении вычислительных затрат на внимание на 62.5%. Мы расширяем оценку на WikiText-2, классификацию тональности IMDB и синтетические операции ListOps, устанавливая чёткий режим работы: CHIAR-Former превосходит другие модели на крупномасштабных естественных текстах, где разнообразие токенов поддерживает спектральную специализацию, в то время как полное самовнимание сохраняет преимущество на небольших наборах данных и задачах синтетического поиска по образцу. Эти результаты — как успехи, так и неудачи — в совокупности определяют, когда и почему спектральная маршрутизация оправдывает себя.

English

Standard transformers apply self-attention uniformly at every layer and token, regardless of whether the input requires dynamic cross-token interaction. We propose CHIAR-Former (Chiaroscuro Attention), a 4-layer hybrid transformer that routes each token to one of three operators - DCT spectral mixing, RBF kernel mixing, or full self-attention - based on per-token spectral entropy, a theoretically justified complexity signal. Through systematic ablation on WikiText-103, we discover routing collapse: the router consistently rejects RBF in favour of DCT and attention, revealing that spectral mixing and dynamic attention are complementary and sufficient. A purpose-designed DCT+Attention-only variant achieves Val PPL 36.54 on WikiText-103 - a 45% improvement over a full-attention baseline (PPL 66.62) at 62.5% fewer attention FLOPs. We extend evaluation to WikiText-2, IMDB sentiment classification, and synthetic ListOps operations, establishing a clear operating regime: CHIAR-Former excels on large-scale naturalistic text where token diversity supports spectral specialisation, while full attention retains an edge on small datasets and synthetic pattern-matching tasks. These findings - both the wins and the losses - together define when and why spectral routing earns its keep.