Sua Matriz de Unembedding é Secretamente uma Lente de Características para Embeddings de Texto

Resumo

Grandes modelos de linguagem apresentam capacidades impressionantes de aprendizado zero-shot em uma ampla variedade de tarefas downstream. No entanto, eles têm dificuldade em funcionar como modelos de embedding prontos para uso, resultando em desempenho abaixo do ideal em benchmarks massivos de embeddings de texto. Neste artigo, identificamos uma possível causa subjacente a essa deficiência. Nossa motivação surge de uma observação inesperada: embeddings de texto tendem a se alinhar com tokens frequentes, mas pouco informativos, quando projetados no espaço vocabular. Argumentamos que essa expressão excessiva de tokens de alta frequência suprime a capacidade do modelo de capturar nuances semânticas. Para lidar com isso, apresentamos o EmbedFilter, uma transformação linear simples projetada para refinar diretamente os embeddings de texto derivados de LLMs. Especificamente, descobrimos que a matriz de unembedding dentro dos LLMs codifica um espaço latente que está ativamente escrevendo esses tokens frequentes no espaço de embedding. Ao filtrar esse subespaço, o EmbedFilter suprime a influência de tokens de alta frequência, melhorando assim as representações semânticas. Como um subproduto interessante, isso possibilita uma redução inerente de dimensionalidade, diminuindo o armazenamento de índices e acelerando a recuperação, enquanto preserva totalmente a qualidade refinada do embedding. Nossos experimentos com múltiplas arquiteturas de LLM demonstram que LLMs equipados com EmbedFilter alcançam desempenho zero-shot downstream superior, mesmo com dimensões de embedding significativamente reduzidas. Esperamos que nossas descobertas forneçam insights mais profundos sobre os mecanismos das representações baseadas em LLMs e inspirem designs mais fundamentados para melhorar o treinamento de embeddings de texto. Nosso código está disponível em https://github.com/CentreChen/EmbFilter.

English

Large language models exhibit impressive zero-shot capabilities across a wide range of downstream tasks. However, they struggle to function as off-the-shelf embedding models, leading to suboptimal performance on massive text embedding benchmarks. In this paper, we identify a potential cause underlying this deficiency. Our motivation stems from an unexpected observation: text embeddings tend to align with frequent but uninformative tokens when projected onto the vocabulary space. We argue that this excessive expression of high-frequency tokens suppresses the model's ability to capture nuanced semantics. To address this, we introduce EmbedFilter, a simple linear transformation designed to refine text embeddings derived from LLMs directly. Specifically, we uncover that the unembedding matrix within LLMs encodes a latent space that is actively writing these frequent tokens into embedding space. By filtering out this subspace, EmbedFilter suppress the influence of high-frequency tokens, thereby enhancing semantic representations. As a compelling byproduct, this enables an inherent dimensionality reduction, lowering index storage and speedup retrieval while fully preserving the refined embedding quality. Our experiments across multiple LLM backbones demonstrate that LLMs equipped with EmbedFilter achieve superior zero-shot downstream performance even with significantly reduced embedding dimensions. We hope our findings provide deeper insights into the mechanisms of LLM-based representations and inspire more principled designs to improve text embeddings training. Our code is available at https://github.com/CentreChen/EmbFilter.