ChatPaper.aiChatPaper

Über die theoretischen Grenzen der Einbettungsbasierten Suche

On the Theoretical Limitations of Embedding-Based Retrieval

August 28, 2025
papers.authors: Orion Weller, Michael Boratko, Iftekhar Naim, Jinhyuk Lee
cs.AI

papers.abstract

Vektor-Einbettungen wurden in den letzten Jahren mit einer stetig wachsenden Anzahl von Retrieval-Aufgaben betraut, wobei ein aufkeimender Trend zu ihrer Verwendung für Reasoning, Befolgen von Anweisungen, Programmieren und mehr zu beobachten ist. Diese neuen Benchmarks fordern Einbettungen dazu auf, für jede Art von Abfrage und jedes mögliche Relevanzkonzept zu funktionieren. Während frühere Arbeiten auf theoretische Grenzen von Vektor-Einbettungen hingewiesen haben, besteht die weit verbreitete Annahme, dass diese Schwierigkeiten ausschließlich auf unrealistische Abfragen zurückzuführen sind und dass solche, die es nicht sind, durch bessere Trainingsdaten und größere Modelle überwunden werden können. In dieser Arbeit zeigen wir, dass wir auf diese theoretischen Grenzen in realistischen Szenarien mit extrem einfachen Abfragen stoßen können. Wir verknüpfen bekannte Ergebnisse aus der Lerntheorie und zeigen, dass die Anzahl der top-k Teilmengen von Dokumenten, die als Ergebnis einer Abfrage zurückgegeben werden können, durch die Dimension der Einbettung begrenzt ist. Wir zeigen empirisch, dass dies auch dann zutrifft, wenn wir uns auf k=2 beschränken und direkt auf dem Testset mit frei parametrisierten Einbettungen optimieren. Anschließend erstellen wir einen realistischen Datensatz namens LIMIT, der Modelle auf der Grundlage dieser theoretischen Ergebnisse stresstestet, und beobachten, dass selbst state-of-the-art Modelle bei diesem Datensatz scheitern, obwohl die Aufgabe einfach ist. Unsere Arbeit zeigt die Grenzen von Einbettungsmodellen unter dem bestehenden Einzelvektor-Paradigma auf und fordert zukünftige Forschung dazu auf, Methoden zu entwickeln, die diese grundlegende Einschränkung überwinden können.
English
Vector embeddings have been tasked with an ever-increasing set of retrieval tasks over the years, with a nascent rise in using them for reasoning, instruction-following, coding, and more. These new benchmarks push embeddings to work for any query and any notion of relevance that could be given. While prior works have pointed out theoretical limitations of vector embeddings, there is a common assumption that these difficulties are exclusively due to unrealistic queries, and those that are not can be overcome with better training data and larger models. In this work, we demonstrate that we may encounter these theoretical limitations in realistic settings with extremely simple queries. We connect known results in learning theory, showing that the number of top-k subsets of documents capable of being returned as the result of some query is limited by the dimension of the embedding. We empirically show that this holds true even if we restrict to k=2, and directly optimize on the test set with free parameterized embeddings. We then create a realistic dataset called LIMIT that stress tests models based on these theoretical results, and observe that even state-of-the-art models fail on this dataset despite the simple nature of the task. Our work shows the limits of embedding models under the existing single vector paradigm and calls for future research to develop methods that can resolve this fundamental limitation.
PDF141September 3, 2025