Spectrale Aandachtsturing voor Promptmarkering

Samenvatting

Aandachtsturing is een belangrijke techniek voor het beheersen van modelfocus, waardoor mogelijkheden zoals promptaccentuering worden gerealiseerd, waarbij het model door de gebruiker gespecificeerde tekst prioriteert. Bestaande methoden voor aandachtsturing vereisen echter de expliciete opslag van de volledige aandachtmatrix, waardoor ze onverenigbaar zijn met geheugenefficiënte implementaties zoals FlashAttention. Wij introduceren Spectral Editing Key Amplification (SEKA), een trainingsvrije stuurmethode die dit aanpakt door sleutel-embeddingen direct te bewerken vóór de aandachtsscoreberekening. SEKA gebruikt spectrale decompositie om sleutel-embeddingen te sturen naar latente richtingen die de aandachtsscores voor bepaalde tokens versterken. Wij breiden dit uit naar Adaptive SEKA (AdaSEKA), een query-adaptieve variant die een trainingsvrij routeringsmechanisme gebruikt om dynamisch meerdere expert-deelruimten te combineren op basis van de semantische intentie van de prompt. Onze experimenten tonen aan dat beide methoden significant sterker presteren dan sterke baselines op standaard stuurbenchmarks, terwijl ze aanzienlijk minder latentie en geheugenoverhead toevoegen, in compatibiliteit met geoptimaliseerde aandacht.

English

Attention steering is an important technique for controlling model focus, enabling capabilities such as prompt highlighting, where the model prioritises user-specified text. However, existing attention steering methods require explicit storage of the full attention matrix, making them incompatible with memory-efficient implementations like FlashAttention. We introduce Spectral Editing Key Amplification (SEKA), a training-free steering method that tackles this by directly editing key embeddings before attention computation. SEKA uses spectral decomposition to steer key embeddings towards latent directions that amplify attention scores for certain tokens. We extend this to Adaptive SEKA (AdaSEKA), a query-adaptive variant that uses a training-free routing mechanism to dynamically combine multiple expert subspaces based on the prompt's semantic intent. Our experiments show both methods significantly outperform strong baselines on standard steering benchmarks while adding much lower latency and memory overhead, in compatibility with optimised attention.

Spectrale Aandachtsturing voor Promptmarkering

Spectral Attention Steering for Prompt Highlighting

Samenvatting

Support