Prism-Δ: Дифференциальное управление в подпространстве для выделения промптов в больших языковых моделях

Аннотация

Подсветка промптов направляет большую языковую модель на приоритизацию указанных пользователем текстовых отрезков во время генерации. Ключевая задача заключается в извлечении направляющих векторов, которые захватывают разницу между релевантным и нерелевантным контекстом, а не общие структурные паттерны, свойственные обоим. Мы предлагаем метод PRISM-Δ (Projection-based Relevance-Informed Steering Method), который декомпозирует разницу между положительными и отрицательными матрицами кросс-ковариации, чтобы максимизировать дискриминативную энергию, одновременно устраняя общие направления. Каждая голова внимания получает непрерывный вес важности, вычисляемый через функцию softplus, что позволяет слабым, но полезным головам вносить вклад с уменьшенной силой. Фреймворк естественным образом расширяется на представления Value, захватывая сигнал из контент-канала, который методы, основанные только на Key, оставляют неиспользованным. На четырех бенчмарках и пяти моделях PRISM-Δ соответствует или превосходит лучший существующий метод в 19 из 20 конфигураций, с относительным приростом до +10,6%, при этом вдвое сокращая "цену" направляющего воздействия на беглость речи. PRISM-Δ также масштабируется для поиска в длинном контексте, превосходя лучший существующий метод с относительным приростом до +4,8%. Метод совместим с FlashAttention и добавляет пренебрежимо малые накладные расходы по памяти.

English

Prompt highlighting steers a large language model to prioritize user-specified text spans during generation. A key challenge is extracting steering directions that capture the difference between relevant and irrelevant contexts, rather than shared structural patterns common to both. We propose PRISM-Δ (Projection-based Relevance-Informed Steering Method), which decomposes the difference between positive and negative cross-covariance matrices to maximize discriminative energy while eliminating shared directions. Each attention head receives a continuous softplus importance weight, letting weak-but-useful heads contribute at reduced strength. The framework extends naturally to Value representations, capturing content-channel signal that Key-only methods leave unused. Across four benchmarks and five models, PRISM-Δ matches or exceeds the best existing method on 19 of 20 configurations, with relative gains up to +10.6%, while halving the fluency cost of steering. PRISM-Δ also scales to long-context retrieval, outperforming the best existing method by up to +4.8% relative gain. PRISM-Δ is compatible with FlashAttention and adds negligible memory overhead.

Prism-Δ: Дифференциальное управление в подпространстве для выделения промптов в больших языковых моделях

Prism-Δ: Differential Subspace Steering for Prompt Highlighting in Large Language Models

Аннотация

Support