О теоретических ограничениях поиска на основе векторных представлений
On the Theoretical Limitations of Embedding-Based Retrieval
August 28, 2025
Авторы: Orion Weller, Michael Boratko, Iftekhar Naim, Jinhyuk Lee
cs.AI
Аннотация
Векторные эмбеддинги в последние годы все чаще используются для решения задач поиска, а также начинают применяться для рассуждений, выполнения инструкций, написания кода и многого другого. Эти новые задачи требуют, чтобы эмбеддинги могли работать с любыми запросами и любыми представлениями о релевантности. Хотя предыдущие работы указывали на теоретические ограничения векторных эмбеддингов, существует распространенное предположение, что эти трудности связаны исключительно с нереалистичными запросами, а те, которые таковыми не являются, можно преодолеть с помощью более качественных данных для обучения и более крупных моделей. В данной работе мы показываем, что эти теоретические ограничения могут проявляться в реалистичных сценариях даже при использовании крайне простых запросов. Мы связываем известные результаты теории обучения, демонстрируя, что количество топ-k подмножеств документов, которые могут быть возвращены в результате некоторого запроса, ограничено размерностью эмбеддинга. Мы эмпирически показываем, что это справедливо даже при ограничении k=2 и прямой оптимизации на тестовом наборе данных с использованием свободно параметризованных эмбеддингов. Затем мы создаем реалистичный набор данных под названием LIMIT, который тестирует модели на основе этих теоретических результатов, и наблюдаем, что даже современные модели терпят неудачу на этом наборе данных, несмотря на простоту задачи. Наша работа демонстрирует ограничения моделей эмбеддингов в рамках существующей парадигмы единого вектора и призывает к дальнейшим исследованиям для разработки методов, способных устранить это фундаментальное ограничение.
English
Vector embeddings have been tasked with an ever-increasing set of retrieval
tasks over the years, with a nascent rise in using them for reasoning,
instruction-following, coding, and more. These new benchmarks push embeddings
to work for any query and any notion of relevance that could be given. While
prior works have pointed out theoretical limitations of vector embeddings,
there is a common assumption that these difficulties are exclusively due to
unrealistic queries, and those that are not can be overcome with better
training data and larger models. In this work, we demonstrate that we may
encounter these theoretical limitations in realistic settings with extremely
simple queries. We connect known results in learning theory, showing that the
number of top-k subsets of documents capable of being returned as the result of
some query is limited by the dimension of the embedding. We empirically show
that this holds true even if we restrict to k=2, and directly optimize on the
test set with free parameterized embeddings. We then create a realistic dataset
called LIMIT that stress tests models based on these theoretical results, and
observe that even state-of-the-art models fail on this dataset despite the
simple nature of the task. Our work shows the limits of embedding models under
the existing single vector paradigm and calls for future research to develop
methods that can resolve this fundamental limitation.