Atención claroscuro: gastando cómputo en la oscuridad

Resumen

Los transformadores estándar aplican autoatención de manera uniforme en cada capa y token, sin considerar si la entrada requiere interacción dinámica entre tokens. Proponemos CHIAR-Former (Chiaroscuro Attention), un transformador híbrido de 4 capas que enruta cada token a uno de tres operadores —mezcla espectral DCT, mezcla kernel RBF o autoatención completa— basándose en la entropía espectral por token, una señal de complejidad fundamentada teóricamente. Mediante ablación sistemática en WikiText-103, descubrimos colapso de enrutamiento: el enrutador rechaza consistentemente RBF en favor de DCT y atención, revelando que la mezcla espectral y la atención dinámica son complementarias y suficientes. Una variante diseñada exclusivamente con DCT+Atención logra una PPL de validación de 36.54 en WikiText-103 —una mejora del 45% frente a una línea base de atención completa (PPL 66.62) con un 62.5% menos de FLOPs de atención. Extendemos la evaluación a WikiText-2, clasificación de sentimientos en IMDB y operaciones sintéticas ListOps, estableciendo un régimen de operación claro: CHIAR-Former sobresale en texto naturalista a gran escala donde la diversidad de tokens favorece la especialización espectral, mientras que la atención completa mantiene una ventaja en conjuntos de datos pequeños y tareas sintéticas de coincidencia de patrones. Estos hallazgos —tanto los aciertos como las limitaciones— definen en conjunto cuándo y por qué el enrutamiento espectral justifica su uso.

English

Standard transformers apply self-attention uniformly at every layer and token, regardless of whether the input requires dynamic cross-token interaction. We propose CHIAR-Former (Chiaroscuro Attention), a 4-layer hybrid transformer that routes each token to one of three operators - DCT spectral mixing, RBF kernel mixing, or full self-attention - based on per-token spectral entropy, a theoretically justified complexity signal. Through systematic ablation on WikiText-103, we discover routing collapse: the router consistently rejects RBF in favour of DCT and attention, revealing that spectral mixing and dynamic attention are complementary and sufficient. A purpose-designed DCT+Attention-only variant achieves Val PPL 36.54 on WikiText-103 - a 45% improvement over a full-attention baseline (PPL 66.62) at 62.5% fewer attention FLOPs. We extend evaluation to WikiText-2, IMDB sentiment classification, and synthetic ListOps operations, establishing a clear operating regime: CHIAR-Former excels on large-scale naturalistic text where token diversity supports spectral specialisation, while full attention retains an edge on small datasets and synthetic pattern-matching tasks. These findings - both the wins and the losses - together define when and why spectral routing earns its keep.