Prism-Δ: Differenzielle Unterraumsteuerung zur Hervorhebung von Prompts in großen Sprachmodellen

Zusammenfassung

Prompt-Highlighting lenkt große Sprachmodelle so, dass sie benutzerdefinierte Textabschnitte während der Generierung priorisieren. Eine zentrale Herausforderung besteht darin, Steuerungsrichtungen zu extrahieren, die den Unterschied zwischen relevanten und irrelevanten Kontexten erfassen, anstatt gemeinsame strukturelle Muster beider Kategorien. Wir schlagen PRISM-Δ (Projektionsbasierte Relevanz-informierte Steuerungsmethode) vor, das die Differenz zwischen positiven und negativen Kreuzkovarianzmatrizen zerlegt, um diskriminative Energie zu maximieren und gleichzeitig gemeinsame Richtungen zu eliminieren. Jeder Attention-Head erhält ein kontinuierliches Softplus-Gewicht, das schwachen, aber nützlichen Köpfen erlaubt, mit reduzierter Stärke beizutragen. Das Framework erstreckt sich natürlich auf Value-Repräsentationen und erfasst damit Signal aus dem Inhaltskanal, das reine Key-Methoden ungenutzt lassen. Über vier Benchmarks und fünf Modelle hinweg übertrifft oder erreicht PRISM-Δ die beste bestehende Methode in 19 von 20 Konfigurationen, mit relativen Gewinnen von bis zu +10,6 %, und halbiert gleichzeitig die Flüssigkeitskosten der Steuerung. PRISM-Δ skaliert auch für Retrieval mit langem Kontext und übertrifft die beste bestehende Methode um bis zu +4,8 % relativen Gewinn. PRISM-Δ ist mit FlashAttention kompatibel und fügt vernachlässigbaren Speichermehraufwand hinzu.

English

Prompt highlighting steers a large language model to prioritize user-specified text spans during generation. A key challenge is extracting steering directions that capture the difference between relevant and irrelevant contexts, rather than shared structural patterns common to both. We propose PRISM-Δ (Projection-based Relevance-Informed Steering Method), which decomposes the difference between positive and negative cross-covariance matrices to maximize discriminative energy while eliminating shared directions. Each attention head receives a continuous softplus importance weight, letting weak-but-useful heads contribute at reduced strength. The framework extends naturally to Value representations, capturing content-channel signal that Key-only methods leave unused. Across four benchmarks and five models, PRISM-Δ matches or exceeds the best existing method on 19 of 20 configurations, with relative gains up to +10.6%, while halving the fluency cost of steering. PRISM-Δ also scales to long-context retrieval, outperforming the best existing method by up to +4.8% relative gain. PRISM-Δ is compatible with FlashAttention and adds negligible memory overhead.

Prism-Δ: Differenzielle Unterraumsteuerung zur Hervorhebung von Prompts in großen Sprachmodellen

Prism-Δ: Differential Subspace Steering for Prompt Highlighting in Large Language Models

Zusammenfassung

Support