Prism-Δ: Direcionamento por Subespaço Diferencial para Destaque de Prompts em Modelos de Linguagem de Grande Porte

Resumo

A realce de prompt orienta um modelo de linguagem de grande escala a priorizar trechos de texto especificados pelo utilizador durante a geração. Um desafio fundamental é extrair direções de orientação que capturem a diferença entre contextos relevantes e irrelevantes, em vez de padrões estruturais comuns a ambos. Propomos o PRISM-Δ (Método de Orientação com Informação de Relevância baseado em Projeção), que decompõe a diferença entre matrizes de covariância cruzada positivas e negativas para maximizar a energia discriminativa, eliminando ao mesmo tempo as direções partilhadas. Cada cabeça de atenção recebe um peso de importância contínuo softplus, permitindo que cabeças fracas, mas úteis, contribuam com força reduzida. O quadro estende-se naturalmente às representações de Valor, capturando o sinal do canal de conteúdo que os métodos baseados apenas em Chave deixam por utilizar. Em quatro benchmarks e cinco modelos, o PRISM-Δ iguala ou supera o melhor método existente em 19 de 20 configurações, com ganhos relativos de até +10,6%, enquanto reduz para metade o custo de fluência da orientação. O PRISM-Δ também escala para recuperação de contexto longo, superando o melhor método existente com um ganho relativo de até +4,8%. O PRISM-Δ é compatível com FlashAttention e adiciona uma sobrecarga de memória negligenciável.

English

Prompt highlighting steers a large language model to prioritize user-specified text spans during generation. A key challenge is extracting steering directions that capture the difference between relevant and irrelevant contexts, rather than shared structural patterns common to both. We propose PRISM-Δ (Projection-based Relevance-Informed Steering Method), which decomposes the difference between positive and negative cross-covariance matrices to maximize discriminative energy while eliminating shared directions. Each attention head receives a continuous softplus importance weight, letting weak-but-useful heads contribute at reduced strength. The framework extends naturally to Value representations, capturing content-channel signal that Key-only methods leave unused. Across four benchmarks and five models, PRISM-Δ matches or exceeds the best existing method on 19 of 20 configurations, with relative gains up to +10.6%, while halving the fluency cost of steering. PRISM-Δ also scales to long-context retrieval, outperforming the best existing method by up to +4.8% relative gain. PRISM-Δ is compatible with FlashAttention and adds negligible memory overhead.

Prism-Δ: Direcionamento por Subespaço Diferencial para Destaque de Prompts em Modelos de Linguagem de Grande Porte

Prism-Δ: Differential Subspace Steering for Prompt Highlighting in Large Language Models

Resumo

Support