Ihre Unembedding-Matrix ist heimlich eine Feature-Linse für Text-Embeddings

Zusammenfassung

Große Sprachmodelle zeigen beeindruckende Zero-Shot-Fähigkeiten über eine breite Palette nachgelagerter Aufgaben. Allerdings fällt es ihnen schwer, als vorgefertigte Einbettungsmodelle zu fungieren, was zu suboptimaler Leistung bei massiven Texteinbettungs-Benchmarks führt. In diesem Artikel identifizieren wir eine mögliche Ursache für dieses Defizit. Unsere Motivation ergibt sich aus einer unerwarteten Beobachtung: Texteinbettungen neigen dazu, sich mit häufigen, aber wenig informativen Token auszurichten, wenn sie auf den Vokabularraum projiziert werden. Wir argumentieren, dass diese übermäßige Ausprägung von hochfrequenten Token die Fähigkeit des Modells unterdrückt, nuancierte Semantik zu erfassen. Um dies zu adressieren, führen wir EmbedFilter ein, eine einfache lineare Transformation, die darauf ausgelegt ist, Texteinbettungen direkt aus LLMs zu verfeinern. Insbesondere decken wir auf, dass die Unembedding-Matrix innerhalb von LLMs einen latenten Raum kodiert, der aktiv diese häufigen Token in den Einbettungsraum schreibt. Durch Herausfiltern dieses Unterraums unterdrückt EmbedFilter den Einfluss von hochfrequenten Token und verbessert so die semantischen Repräsentationen. Als überzeugendes Nebenprodukt ermöglicht dies eine inhärente Dimensionsreduktion, die den Indexspeicher verringert und die Abfrage beschleunigt, während die verfeinerte Einbettungsqualität vollständig erhalten bleibt. Unsere Experimente mit mehreren LLM-Backbones zeigen, dass LLMs, die mit EmbedFilter ausgestattet sind, auch bei deutlich reduzierten Einbettungsdimensionen eine überlegene Zero-Shot-Downstream-Leistung erzielen. Wir hoffen, dass unsere Ergebnisse tiefere Einblicke in die Mechanismen von LLM-basierten Repräsentationen bieten und zu prinzipientreueren Designs inspirieren, um das Training von Texteinbettungen zu verbessern. Unser Code ist verfügbar unter https://github.com/CentreChen/EmbFilter.

English

Large language models exhibit impressive zero-shot capabilities across a wide range of downstream tasks. However, they struggle to function as off-the-shelf embedding models, leading to suboptimal performance on massive text embedding benchmarks. In this paper, we identify a potential cause underlying this deficiency. Our motivation stems from an unexpected observation: text embeddings tend to align with frequent but uninformative tokens when projected onto the vocabulary space. We argue that this excessive expression of high-frequency tokens suppresses the model's ability to capture nuanced semantics. To address this, we introduce EmbedFilter, a simple linear transformation designed to refine text embeddings derived from LLMs directly. Specifically, we uncover that the unembedding matrix within LLMs encodes a latent space that is actively writing these frequent tokens into embedding space. By filtering out this subspace, EmbedFilter suppress the influence of high-frequency tokens, thereby enhancing semantic representations. As a compelling byproduct, this enables an inherent dimensionality reduction, lowering index storage and speedup retrieval while fully preserving the refined embedding quality. Our experiments across multiple LLM backbones demonstrate that LLMs equipped with EmbedFilter achieve superior zero-shot downstream performance even with significantly reduced embedding dimensions. We hope our findings provide deeper insights into the mechanisms of LLM-based representations and inspire more principled designs to improve text embeddings training. Our code is available at https://github.com/CentreChen/EmbFilter.