Su Matriz de Desincrustación es Secretamente una Lente de Características para los Embeddings de Texto

Resumen

Los modelos de lenguaje de gran escala exhiben impresionantes capacidades de cero disparo en una amplia variedad de tareas posteriores. Sin embargo, tienen dificultades para funcionar como modelos de incrustación listos para usar, lo que genera un rendimiento subóptimo en puntos de referencia masivos de incrustación de texto. En este artículo, identificamos una posible causa subyacente de esta deficiencia. Nuestra motivación surge de una observación inesperada: las incrustaciones de texto tienden a alinearse con tokens frecuentes pero poco informativos cuando se proyectan en el espacio de vocabulario. Sostenemos que esta expresión excesiva de tokens de alta frecuencia suprime la capacidad del modelo para capturar matices semánticos. Para abordar esto, presentamos EmbedFilter, una transformación lineal simple diseñada para refinar directamente las incrustaciones de texto derivadas de los LLM. Específicamente, descubrimos que la matriz de desincrustación dentro de los LLM codifica un espacio latente que está escribiendo activamente estos tokens frecuentes en el espacio de incrustación. Al filtrar este subespacio, EmbedFilter suprime la influencia de los tokens de alta frecuencia, mejorando así las representaciones semánticas. Como subproducto convincente, esto permite una reducción inherente de dimensionalidad, disminuyendo el almacenamiento de índices y acelerando la recuperación, mientras se preserva completamente la calidad de la incrustación refinada. Nuestros experimentos con múltiples arquitecturas de LLM demuestran que los LLM equipados con EmbedFilter logran un rendimiento superior de cero disparo en tareas posteriores, incluso con dimensiones de incrustación significativamente reducidas. Esperamos que nuestros hallazgos proporcionen conocimientos más profundos sobre los mecanismos de las representaciones basadas en LLM e inspiren diseños más fundamentados para mejorar el entrenamiento de incrustaciones de texto. Nuestro código está disponible en https://github.com/CentreChen/EmbFilter.

English

Large language models exhibit impressive zero-shot capabilities across a wide range of downstream tasks. However, they struggle to function as off-the-shelf embedding models, leading to suboptimal performance on massive text embedding benchmarks. In this paper, we identify a potential cause underlying this deficiency. Our motivation stems from an unexpected observation: text embeddings tend to align with frequent but uninformative tokens when projected onto the vocabulary space. We argue that this excessive expression of high-frequency tokens suppresses the model's ability to capture nuanced semantics. To address this, we introduce EmbedFilter, a simple linear transformation designed to refine text embeddings derived from LLMs directly. Specifically, we uncover that the unembedding matrix within LLMs encodes a latent space that is actively writing these frequent tokens into embedding space. By filtering out this subspace, EmbedFilter suppress the influence of high-frequency tokens, thereby enhancing semantic representations. As a compelling byproduct, this enables an inherent dimensionality reduction, lowering index storage and speedup retrieval while fully preserving the refined embedding quality. Our experiments across multiple LLM backbones demonstrate that LLMs equipped with EmbedFilter achieve superior zero-shot downstream performance even with significantly reduced embedding dimensions. We hope our findings provide deeper insights into the mechanisms of LLM-based representations and inspire more principled designs to improve text embeddings training. Our code is available at https://github.com/CentreChen/EmbFilter.