Spektrale Aufmerksamkeitslenkung zur Hervorhebung von Prompts

Zusammenfassung

Attention Steering ist eine wichtige Technik zur Steuerung der Modellfokussierung, die Funktionen wie Prompt-Hervorhebung ermöglicht, bei der das Modell benutzerdefinierten Text priorisiert. Bisherige Attention-Steering-Methoden erfordern jedoch die explizite Speicherung der vollständigen Attention-Matrix, was sie inkompatibel mit speichereffizienten Implementierungen wie FlashAttention macht. Wir stellen Spectral Editing Key Amplification (SEKA) vor, eine trainingsfreie Steering-Methode, die dieses Problem löst, indem sie Key-Embeddings direkt vor der Attention-Berechnung modifiziert. SEKA nutzt Spektralzerlegung, um Key-Embeddings in latente Richtungen zu lenken, die Attention-Scores für bestimmte Tokens verstärken. Wir erweitern dies zu Adaptive SEKA (AdaSEKA), einer query-adaptiven Variante, die einen trainingsfreien Routing-Mechanismus verwendet, um mehrere Expertensubräume dynamisch basierend auf der semantischen Intention des Prompts zu kombinieren. Unsere Experimente zeigen, dass beide Methoden starke Baselines auf standardisierten Steering-Benchmarks signifikant übertreffen, bei deutlich geringerer Latenz und geringerem Speicherverbrauch sowie voller Kompatibilität mit optimierter Attention.

English

Attention steering is an important technique for controlling model focus, enabling capabilities such as prompt highlighting, where the model prioritises user-specified text. However, existing attention steering methods require explicit storage of the full attention matrix, making them incompatible with memory-efficient implementations like FlashAttention. We introduce Spectral Editing Key Amplification (SEKA), a training-free steering method that tackles this by directly editing key embeddings before attention computation. SEKA uses spectral decomposition to steer key embeddings towards latent directions that amplify attention scores for certain tokens. We extend this to Adaptive SEKA (AdaSEKA), a query-adaptive variant that uses a training-free routing mechanism to dynamically combine multiple expert subspaces based on the prompt's semantic intent. Our experiments show both methods significantly outperform strong baselines on standard steering benchmarks while adding much lower latency and memory overhead, in compatibility with optimised attention.

Spektrale Aufmerksamkeitslenkung zur Hervorhebung von Prompts

Spectral Attention Steering for Prompt Highlighting

Zusammenfassung

Support