ChatPaper.aiChatPaper

Sur les limites théoriques de la récupération basée sur les embeddings

On the Theoretical Limitations of Embedding-Based Retrieval

August 28, 2025
papers.authors: Orion Weller, Michael Boratko, Iftekhar Naim, Jinhyuk Lee
cs.AI

papers.abstract

Les plongements vectoriels se sont vu confier un ensemble croissant de tâches de recherche au fil des années, avec une émergence récente de leur utilisation pour le raisonnement, le suivi d'instructions, le codage, et bien plus encore. Ces nouveaux benchmarks poussent les plongements à fonctionner pour toute requête et toute notion de pertinence qui pourrait être donnée. Bien que des travaux antérieurs aient souligné les limitations théoriques des plongements vectoriels, il existe une hypothèse commune selon laquelle ces difficultés sont exclusivement dues à des requêtes irréalistes, et que celles qui ne le sont pas peuvent être surmontées avec de meilleures données d'entraînement et des modèles plus volumineux. Dans ce travail, nous démontrons que nous pouvons rencontrer ces limitations théoriques dans des contextes réalistes avec des requêtes extrêmement simples. Nous relions des résultats connus en théorie de l'apprentissage, montrant que le nombre de sous-ensembles de documents top-k pouvant être retournés comme résultat d'une requête est limité par la dimension du plongement. Nous montrons empiriquement que cela reste vrai même si nous nous limitons à k=2, et optimisons directement sur l'ensemble de test avec des plongements paramétrés libres. Nous créons ensuite un ensemble de données réaliste appelé LIMIT qui teste de manière intensive les modèles basés sur ces résultats théoriques, et observons que même les modèles de pointe échouent sur cet ensemble de données malgré la simplicité de la tâche. Notre travail montre les limites des modèles de plongement sous le paradigme actuel du vecteur unique et appelle à des recherches futures pour développer des méthodes capables de résoudre cette limitation fondamentale.
English
Vector embeddings have been tasked with an ever-increasing set of retrieval tasks over the years, with a nascent rise in using them for reasoning, instruction-following, coding, and more. These new benchmarks push embeddings to work for any query and any notion of relevance that could be given. While prior works have pointed out theoretical limitations of vector embeddings, there is a common assumption that these difficulties are exclusively due to unrealistic queries, and those that are not can be overcome with better training data and larger models. In this work, we demonstrate that we may encounter these theoretical limitations in realistic settings with extremely simple queries. We connect known results in learning theory, showing that the number of top-k subsets of documents capable of being returned as the result of some query is limited by the dimension of the embedding. We empirically show that this holds true even if we restrict to k=2, and directly optimize on the test set with free parameterized embeddings. We then create a realistic dataset called LIMIT that stress tests models based on these theoretical results, and observe that even state-of-the-art models fail on this dataset despite the simple nature of the task. Our work shows the limits of embedding models under the existing single vector paradigm and calls for future research to develop methods that can resolve this fundamental limitation.
PDF141September 3, 2025