Prism-Δ: Дифференциальное управление в подпространстве для выделения промптов в больших языковых моделях
Prism-Δ: Differential Subspace Steering for Prompt Highlighting in Large Language Models
March 11, 2026
Авторы: Yuyao Ge, Shenghua Liu, Yiwei Wang, Tianyu Liu, Baolong Bi, Lingrui Mei, Jiayu Yao, Jiafeng Guo, Xueqi Cheng
cs.AI
Аннотация
Подсветка промптов направляет большую языковую модель на приоритизацию указанных пользователем текстовых отрезков во время генерации. Ключевая задача заключается в извлечении направляющих векторов, которые захватывают разницу между релевантным и нерелевантным контекстом, а не общие структурные паттерны, свойственные обоим. Мы предлагаем метод PRISM-Δ (Projection-based Relevance-Informed Steering Method), который декомпозирует разницу между положительными и отрицательными матрицами кросс-ковариации, чтобы максимизировать дискриминативную энергию, одновременно устраняя общие направления. Каждая голова внимания получает непрерывный вес важности, вычисляемый через функцию softplus, что позволяет слабым, но полезным головам вносить вклад с уменьшенной силой. Фреймворк естественным образом расширяется на представления Value, захватывая сигнал из контент-канала, который методы, основанные только на Key, оставляют неиспользованным. На четырех бенчмарках и пяти моделях PRISM-Δ соответствует или превосходит лучший существующий метод в 19 из 20 конфигураций, с относительным приростом до +10,6%, при этом вдвое сокращая "цену" направляющего воздействия на беглость речи. PRISM-Δ также масштабируется для поиска в длинном контексте, превосходя лучший существующий метод с относительным приростом до +4,8%. Метод совместим с FlashAttention и добавляет пренебрежимо малые накладные расходы по памяти.
English
Prompt highlighting steers a large language model to prioritize user-specified text spans during generation. A key challenge is extracting steering directions that capture the difference between relevant and irrelevant contexts, rather than shared structural patterns common to both. We propose PRISM-Δ (Projection-based Relevance-Informed Steering Method), which decomposes the difference between positive and negative cross-covariance matrices to maximize discriminative energy while eliminating shared directions. Each attention head receives a continuous softplus importance weight, letting weak-but-useful heads contribute at reduced strength. The framework extends naturally to Value representations, capturing content-channel signal that Key-only methods leave unused. Across four benchmarks and five models, PRISM-Δ matches or exceeds the best existing method on 19 of 20 configurations, with relative gains up to +10.6%, while halving the fluency cost of steering. PRISM-Δ also scales to long-context retrieval, outperforming the best existing method by up to +4.8% relative gain. PRISM-Δ is compatible with FlashAttention and adds negligible memory overhead.