Votre matrice de désencodage est secrètement une lentille de caractéristiques pour les plongements de texte.

Résumé

Les grands modèles de langage présentent des capacités zero-shot impressionnantes dans un large éventail de tâches en aval. Cependant, ils peinent à fonctionner comme des modèles d'encodage prêts à l'emploi, ce qui conduit à des performances sous-optimales sur les benchmarks massifs d'encodage de texte. Dans cet article, nous identifions une cause potentielle de cette lacune. Notre motivation découle d'une observation inattendue : les encodages de texte tendent à s'aligner sur des tokens fréquents mais peu informatifs lorsqu'ils sont projetés dans l'espace du vocabulaire. Nous soutenons que cette expression excessive des tokens fréquents entrave la capacité du modèle à capturer des nuances sémantiques. Pour y remédier, nous introduisons EmbedFilter, une simple transformation linéaire conçue pour affiner directement les encodages de texte issus de LLM. Plus précisément, nous découvrons que la matrice de désencodage au sein des LLM encode un espace latent qui inscrit activement ces tokens fréquents dans l'espace d'encodage. En filtrant ce sous-espace, EmbedFilter supprime l'influence des tokens fréquents, améliorant ainsi les représentations sémantiques. Comme sous-produit intéressant, cela permet une réduction de dimensionnalité inhérente, abaissant le stockage d'index et accélérant la recherche tout en préservant pleinement la qualité des encodages affinés. Nos expériences sur plusieurs architectures de LLM démontrent que les LLM équipés d'EmbedFilter atteignent des performances zero-shot supérieures en aval, même avec des dimensions d'encodage considérablement réduites. Nous espérons que nos résultats fourniront des perspectives plus approfondies sur les mécanismes des représentations basées sur les LLM et inspireront des conceptions plus fondées pour améliorer l'apprentissage d'encodages de texte. Notre code est disponible à l'adresse https://github.com/CentreChen/EmbFilter.

English

Large language models exhibit impressive zero-shot capabilities across a wide range of downstream tasks. However, they struggle to function as off-the-shelf embedding models, leading to suboptimal performance on massive text embedding benchmarks. In this paper, we identify a potential cause underlying this deficiency. Our motivation stems from an unexpected observation: text embeddings tend to align with frequent but uninformative tokens when projected onto the vocabulary space. We argue that this excessive expression of high-frequency tokens suppresses the model's ability to capture nuanced semantics. To address this, we introduce EmbedFilter, a simple linear transformation designed to refine text embeddings derived from LLMs directly. Specifically, we uncover that the unembedding matrix within LLMs encodes a latent space that is actively writing these frequent tokens into embedding space. By filtering out this subspace, EmbedFilter suppress the influence of high-frequency tokens, thereby enhancing semantic representations. As a compelling byproduct, this enables an inherent dimensionality reduction, lowering index storage and speedup retrieval while fully preserving the refined embedding quality. Our experiments across multiple LLM backbones demonstrate that LLMs equipped with EmbedFilter achieve superior zero-shot downstream performance even with significantly reduced embedding dimensions. We hope our findings provide deeper insights into the mechanisms of LLM-based representations and inspire more principled designs to improve text embeddings training. Our code is available at https://github.com/CentreChen/EmbFilter.