키아로스쿠로 어텐션: 어둠 속에서의 연산 소비
Chiaroscuro Attention: Spending Compute in the Dark
June 6, 2026
저자: Prateek Kumar Sikdar
cs.AI
초록
표준 트랜스포머는 입력이 동적 교차 토큰 상호작용을 필요로 하는지 여부와 관계없이 모든 레이어와 토큰에 자기 주의(self-attention)를 균일하게 적용한다. 본 연구에서는 CHIAR-Former(Chiaroscuro Attention)를 제안한다. 이는 이론적으로 정당화된 복잡성 신호인 토큰별 스펙트럼 엔트로피(per-token spectral entropy)를 기반으로 각 토큰을 DCT 스펙트럼 혼합, RBF 커널 혼합, 또는 완전 자기 주의 중 하나로 라우팅하는 4계층 하이브리드 트랜스포머이다. WikiText-103에 대한 체계적인 절제 연구를 통해 라우팅 붕괴(routing collapse)를 발견하였다. 라우터가 RBF를 일관되게 거부하고 DCT와 주의를 선호함으로써, 스펙트럼 혼합과 동적 주의가 상호 보완적이며 충분함을 보여준다. 목적에 맞게 설계된 DCT+Attention 전용 변형은 WikiText-103에서 Val PPL 36.54를 달성하는데, 이는 전체 주의 기준선(PPL 66.62) 대비 45% 개선된 결과이며 주의 FLOPs는 62.5% 감소하였다. 평가를 WikiText-2, IMDB 감정 분류, 합성 ListOps 연산으로 확장하여 명확한 작동 영역을 확립하였다. CHIAR-Former는 토큰 다양성이 스펙트럼 전문화를 지원하는 대규모 자연어 텍스트에서 뛰어난 성능을 보이는 반면, 전체 주의는 소규모 데이터셋과 합성 패턴 매칭 작업에서 우위를 유지한다. 이러한 발견은 승리와 패배 모두를 포함하여, 스펙트럼 라우팅이 언제, 왜 그 가치를 인정받는지를 함께 정의한다.
English
Standard transformers apply self-attention uniformly at every layer and token, regardless of whether the input requires dynamic cross-token interaction. We propose CHIAR-Former (Chiaroscuro Attention), a 4-layer hybrid transformer that routes each token to one of three operators - DCT spectral mixing, RBF kernel mixing, or full self-attention - based on per-token spectral entropy, a theoretically justified complexity signal. Through systematic ablation on WikiText-103, we discover routing collapse: the router consistently rejects RBF in favour of DCT and attention, revealing that spectral mixing and dynamic attention are complementary and sufficient. A purpose-designed DCT+Attention-only variant achieves Val PPL 36.54 on WikiText-103 - a 45% improvement over a full-attention baseline (PPL 66.62) at 62.5% fewer attention FLOPs. We extend evaluation to WikiText-2, IMDB sentiment classification, and synthetic ListOps operations, establishing a clear operating regime: CHIAR-Former excels on large-scale naturalistic text where token diversity supports spectral specialisation, while full attention retains an edge on small datasets and synthetic pattern-matching tasks. These findings - both the wins and the losses - together define when and why spectral routing earns its keep.