Uw UnEmbedding Matrix is in het geheim een Feature Lens voor Tekstembeddingen

Samenvatting

Grote taalmodellen vertonen indrukwekkende nul-shot capaciteiten over een breed scala aan downstreamtaken. Ze hebben echter moeite om te functioneren als kant-en-klare inbeddingsmodellen, wat leidt tot suboptimale prestaties op grootschalige tekstinbeddingsbenchmarks. In dit artikel identificeren we een mogelijke oorzaak die aan dit tekort ten grondslag ligt. Onze motivatie komt voort uit een onverwachte observatie: tekstinbeddingen hebben de neiging om uit te lijnen met frequente maar niet-informatieve tokens wanneer ze worden geprojecteerd op de vocabulaire ruimte. Wij beargumenteren dat deze overmatige expressie van hoogfrequente tokens het vermogen van het model om genuanceerde semantiek te vatten onderdrukt. Om dit aan te pakken introduceren we EmbedFilter, een eenvoudige lineaire transformatie die is ontworpen om tekstinbeddingen die direct van LLMs zijn afgeleid te verfijnen. Specifiek ontdekken we dat de 'unembedding' matrix in LLMs een latente ruimte codeert die actief deze frequente tokens in de inbeddingsruimte schrijft. Door deze deelruimte uit te filteren, onderdrukt EmbedFilter de invloed van hoogfrequente tokens, waardoor semantische representaties worden verbeterd. Als overtuigend bijproduct maakt dit een inherente dimensionaliteitsreductie mogelijk, waardoor de indexopslag wordt verlaagd en het ophalen wordt versneld, terwijl de verfijnde inbeddingskwaliteit volledig behouden blijft. Onze experimenten over meerdere LLM-backbones tonen aan dat LLMs uitgerust met EmbedFilter superieure nul-shot downstreamprestaties behalen, zelfs met aanzienlijk gereduceerde inbeddingsdimensies. We hopen dat onze bevindingen diepere inzichten bieden in de mechanismen van op LLM gebaseerde representaties en inspireren tot meer principiële ontwerpen om de training van tekstinbeddingen te verbeteren. Onze code is beschikbaar op https://github.com/CentreChen/EmbFilter.

English

Large language models exhibit impressive zero-shot capabilities across a wide range of downstream tasks. However, they struggle to function as off-the-shelf embedding models, leading to suboptimal performance on massive text embedding benchmarks. In this paper, we identify a potential cause underlying this deficiency. Our motivation stems from an unexpected observation: text embeddings tend to align with frequent but uninformative tokens when projected onto the vocabulary space. We argue that this excessive expression of high-frequency tokens suppresses the model's ability to capture nuanced semantics. To address this, we introduce EmbedFilter, a simple linear transformation designed to refine text embeddings derived from LLMs directly. Specifically, we uncover that the unembedding matrix within LLMs encodes a latent space that is actively writing these frequent tokens into embedding space. By filtering out this subspace, EmbedFilter suppress the influence of high-frequency tokens, thereby enhancing semantic representations. As a compelling byproduct, this enables an inherent dimensionality reduction, lowering index storage and speedup retrieval while fully preserving the refined embedding quality. Our experiments across multiple LLM backbones demonstrate that LLMs equipped with EmbedFilter achieve superior zero-shot downstream performance even with significantly reduced embedding dimensions. We hope our findings provide deeper insights into the mechanisms of LLM-based representations and inspire more principled designs to improve text embeddings training. Our code is available at https://github.com/CentreChen/EmbFilter.