Sui Limiti Teorici del Recupero Basato su Embedding
On the Theoretical Limitations of Embedding-Based Retrieval
August 28, 2025
Autori: Orion Weller, Michael Boratko, Iftekhar Naim, Jinhyuk Lee
cs.AI
Abstract
Negli anni, gli embedding vettoriali sono stati incaricati di un numero sempre crescente di attività di recupero, con un recente aumento del loro utilizzo per il ragionamento, il seguimento di istruzioni, la codifica e altro ancora. Questi nuovi benchmark spingono gli embedding a funzionare per qualsiasi query e qualsiasi nozione di rilevanza che potrebbe essere fornita. Sebbene lavori precedenti abbiano evidenziato limitazioni teoriche degli embedding vettoriali, esiste un'assunzione comune secondo cui queste difficoltà sono esclusivamente dovute a query irrealistiche, e che quelle che non lo sono possono essere superate con dati di addestramento migliori e modelli più grandi. In questo lavoro, dimostriamo che possiamo incontrare queste limitazioni teoriche in contesti realistici con query estremamente semplici. Colleghiamo risultati noti nella teoria dell'apprendimento, mostrando che il numero di sottoinsiemi top-k di documenti che possono essere restituiti come risultato di una query è limitato dalla dimensione dell'embedding. Dimostriamo empiricamente che questo vale anche se ci limitiamo a k=2 e ottimizziamo direttamente sul set di test con embedding parametrici liberi. Creiamo quindi un dataset realistico chiamato LIMIT che mette alla prova i modelli basandosi su questi risultati teorici, e osserviamo che anche i modelli all'avanguardia falliscono su questo dataset nonostante la natura semplice del compito. Il nostro lavoro mostra i limiti dei modelli di embedding sotto l'attuale paradigma del singolo vettore e invita la ricerca futura a sviluppare metodi che possano risolvere questa limitazione fondamentale.
English
Vector embeddings have been tasked with an ever-increasing set of retrieval
tasks over the years, with a nascent rise in using them for reasoning,
instruction-following, coding, and more. These new benchmarks push embeddings
to work for any query and any notion of relevance that could be given. While
prior works have pointed out theoretical limitations of vector embeddings,
there is a common assumption that these difficulties are exclusively due to
unrealistic queries, and those that are not can be overcome with better
training data and larger models. In this work, we demonstrate that we may
encounter these theoretical limitations in realistic settings with extremely
simple queries. We connect known results in learning theory, showing that the
number of top-k subsets of documents capable of being returned as the result of
some query is limited by the dimension of the embedding. We empirically show
that this holds true even if we restrict to k=2, and directly optimize on the
test set with free parameterized embeddings. We then create a realistic dataset
called LIMIT that stress tests models based on these theoretical results, and
observe that even state-of-the-art models fail on this dataset despite the
simple nature of the task. Our work shows the limits of embedding models under
the existing single vector paradigm and calls for future research to develop
methods that can resolve this fundamental limitation.