Ваша матрица обратного вложения — это скрытая линза признаков для текстовых эмбеддингов

Аннотация

Большие языковые модели демонстрируют впечатляющие способности к обучению без примеров (zero-shot) в широком спектре последующих задач. Однако им трудно функционировать в качестве готовых моделей эмбеддингов, что приводит к неоптимальной производительности на крупномасштабных тестах текстовых эмбеддингов. В данной работе мы выявляем потенциальную причину этого недостатка. Наша мотивация проистекает из неожиданного наблюдения: при проецировании на пространство словаря текстовые эмбеддинги имеют тенденцию выравниваться по частотным, но неинформативным токенам. Мы утверждаем, что такое чрезмерное выражение высокочастотных токенов подавляет способность модели улавливать тонкую семантику. Для решения этой проблемы мы представляем EmbedFilter — простое линейное преобразование, предназначенное для непосредственного уточнения текстовых эмбеддингов, полученных от LLM. В частности, мы обнаружили, что матрица разэмбеддинга (unembedding matrix) в LLM кодирует скрытое пространство, которое активно записывает эти частотные токены в пространство эмбеддингов. Фильтруя это подпространство, EmbedFilter подавляет влияние высокочастотных токенов, тем самым улучшая семантические представления. В качестве важного побочного эффекта это позволяет осуществить внутреннее снижение размерности, уменьшая объем хранилища индексов и ускоряя поиск при полном сохранении качества уточненных эмбеддингов. Наши эксперименты на нескольких базовых LLM показывают, что LLM, оснащенные EmbedFilter, достигают превосходной производительности в последующих задачах в режиме zero-shot даже при значительно уменьшенной размерности эмбеддингов. Мы надеемся, что наши результаты дадут более глубокое понимание механизмов представлений на основе LLM и вдохновят на создание более обоснованных методов для улучшения обучения текстовых эмбеддингов. Наш код доступен по адресу https://github.com/CentreChen/EmbFilter.

English

Large language models exhibit impressive zero-shot capabilities across a wide range of downstream tasks. However, they struggle to function as off-the-shelf embedding models, leading to suboptimal performance on massive text embedding benchmarks. In this paper, we identify a potential cause underlying this deficiency. Our motivation stems from an unexpected observation: text embeddings tend to align with frequent but uninformative tokens when projected onto the vocabulary space. We argue that this excessive expression of high-frequency tokens suppresses the model's ability to capture nuanced semantics. To address this, we introduce EmbedFilter, a simple linear transformation designed to refine text embeddings derived from LLMs directly. Specifically, we uncover that the unembedding matrix within LLMs encodes a latent space that is actively writing these frequent tokens into embedding space. By filtering out this subspace, EmbedFilter suppress the influence of high-frequency tokens, thereby enhancing semantic representations. As a compelling byproduct, this enables an inherent dimensionality reduction, lowering index storage and speedup retrieval while fully preserving the refined embedding quality. Our experiments across multiple LLM backbones demonstrate that LLMs equipped with EmbedFilter achieve superior zero-shot downstream performance even with significantly reduced embedding dimensions. We hope our findings provide deeper insights into the mechanisms of LLM-based representations and inspire more principled designs to improve text embeddings training. Our code is available at https://github.com/CentreChen/EmbFilter.