Over de theoretische beperkingen van op embeddings gebaseerde retrievalsystemen
On the Theoretical Limitations of Embedding-Based Retrieval
August 28, 2025
Auteurs: Orion Weller, Michael Boratko, Iftekhar Naim, Jinhyuk Lee
cs.AI
Samenvatting
Vector embeddings zijn in de loop der jaren belast met een steeds groeiende reeks retrievaltaken, met een opkomende trend in het gebruik ervan voor redeneren, instructievolgen, coderen en meer. Deze nieuwe benchmarks dwingen embeddings om te werken voor elke query en elk relevantiebegrip dat gegeven zou kunnen worden. Hoewel eerdere werken theoretische beperkingen van vector embeddings hebben benadrukt, is er een algemene aanname dat deze moeilijkheden uitsluitend te wijten zijn aan onrealistische queries, en dat die welke dat niet zijn, overwonnen kunnen worden met betere trainingsdata en grotere modellen. In dit werk tonen we aan dat we deze theoretische beperkingen kunnen tegenkomen in realistische situaties met extreem eenvoudige queries. We verbinden bekende resultaten uit de leer theorie, waaruit blijkt dat het aantal top-k subsets van documenten dat kan worden geretourneerd als resultaat van een query, beperkt is door de dimensie van de embedding. We tonen empirisch aan dat dit zelfs geldt als we ons beperken tot k=2, en direct optimaliseren op de testset met vrij geparametriseerde embeddings. Vervolgens creëren we een realistische dataset genaamd LIMIT die modellen stress test op basis van deze theoretische resultaten, en observeren we dat zelfs state-of-the-art modellen falen op deze dataset ondanks de eenvoudige aard van de taak. Ons werk toont de grenzen van embeddingmodellen onder het bestaande single vector paradigma en roept op tot toekomstig onderzoek om methoden te ontwikkelen die deze fundamentele beperking kunnen oplossen.
English
Vector embeddings have been tasked with an ever-increasing set of retrieval
tasks over the years, with a nascent rise in using them for reasoning,
instruction-following, coding, and more. These new benchmarks push embeddings
to work for any query and any notion of relevance that could be given. While
prior works have pointed out theoretical limitations of vector embeddings,
there is a common assumption that these difficulties are exclusively due to
unrealistic queries, and those that are not can be overcome with better
training data and larger models. In this work, we demonstrate that we may
encounter these theoretical limitations in realistic settings with extremely
simple queries. We connect known results in learning theory, showing that the
number of top-k subsets of documents capable of being returned as the result of
some query is limited by the dimension of the embedding. We empirically show
that this holds true even if we restrict to k=2, and directly optimize on the
test set with free parameterized embeddings. We then create a realistic dataset
called LIMIT that stress tests models based on these theoretical results, and
observe that even state-of-the-art models fail on this dataset despite the
simple nature of the task. Our work shows the limits of embedding models under
the existing single vector paradigm and calls for future research to develop
methods that can resolve this fundamental limitation.