Prism-Δ: Direccionamiento Diferencial de Subespacios para el Resaltado de Indicaciones en Modelos de Lenguaje a Gran Escala

Resumen

El resaltado de indicaciones dirige a los modelos de lenguaje grande para que prioricen los fragmentos de texto especificados por el usuario durante la generación. Un desafío clave es extraer direcciones de guiado que capturen la diferencia entre contextos relevantes y no relevantes, en lugar de los patrones estructurales compartidos comunes a ambos. Proponemos PRISM-Δ (Método de Guiado Informado por Relevancia basado en Proyección), que descompone la diferencia entre las matrices de covarianza cruzada positiva y negativa para maximizar la energía discriminativa mientras elimina las direcciones compartidas. Cada cabeza de atención recibe un peso de importancia continuo de softplus, permitiendo que las cabezas débiles pero útiles contribuyan con una fuerza reducida. El marco se extiende naturalmente a las representaciones de Valor, capturando la señal del canal de contenido que los métodos basados solo en Clave dejan sin usar. En cuatro benchmarks y cinco modelos, PRISM-Δ iguala o supera al mejor método existente en 19 de 20 configuraciones, con ganancias relativas de hasta +10.6%, mientras reduce a la mitad el coste de fluidez del guiado. PRISM-Δ también escala a la recuperación de contexto largo, superando al mejor método existente con una ganancia relativa de hasta +4.8%. PRISM-Δ es compatible con FlashAttention y añuye una sobrecarga de memoria negligible.

English

Prompt highlighting steers a large language model to prioritize user-specified text spans during generation. A key challenge is extracting steering directions that capture the difference between relevant and irrelevant contexts, rather than shared structural patterns common to both. We propose PRISM-Δ (Projection-based Relevance-Informed Steering Method), which decomposes the difference between positive and negative cross-covariance matrices to maximize discriminative energy while eliminating shared directions. Each attention head receives a continuous softplus importance weight, letting weak-but-useful heads contribute at reduced strength. The framework extends naturally to Value representations, capturing content-channel signal that Key-only methods leave unused. Across four benchmarks and five models, PRISM-Δ matches or exceeds the best existing method on 19 of 20 configurations, with relative gains up to +10.6%, while halving the fluency cost of steering. PRISM-Δ also scales to long-context retrieval, outperforming the best existing method by up to +4.8% relative gain. PRISM-Δ is compatible with FlashAttention and adds negligible memory overhead.

Prism-Δ: Direccionamiento Diferencial de Subespacios para el Resaltado de Indicaciones en Modelos de Lenguaje a Gran Escala

Prism-Δ: Differential Subspace Steering for Prompt Highlighting in Large Language Models

Resumen

Support