Sobre las Limitaciones Teóricas de la Recuperación Basada en Incrustaciones
On the Theoretical Limitations of Embedding-Based Retrieval
August 28, 2025
Autores: Orion Weller, Michael Boratko, Iftekhar Naim, Jinhyuk Lee
cs.AI
Resumen
Los embeddings vectoriales han sido asignados a un conjunto cada vez mayor de tareas de recuperación a lo largo de los años, con un incipiente aumento en su uso para razonamiento, seguimiento de instrucciones, codificación y más. Estos nuevos puntos de referencia exigen que los embeddings funcionen para cualquier consulta y cualquier noción de relevancia que pueda ser proporcionada. Si bien trabajos previos han señalado limitaciones teóricas de los embeddings vectoriales, existe una suposición común de que estas dificultades se deben exclusivamente a consultas poco realistas, y que aquellas que no lo son pueden superarse con mejores datos de entrenamiento y modelos más grandes. En este trabajo, demostramos que podemos encontrar estas limitaciones teóricas en entornos realistas con consultas extremadamente simples. Conectamos resultados conocidos en teoría del aprendizaje, mostrando que el número de subconjuntos top-k de documentos que pueden ser devueltos como resultado de alguna consulta está limitado por la dimensión del embedding. Demostramos empíricamente que esto se mantiene incluso si nos restringimos a k=2, y optimizamos directamente en el conjunto de prueba con embeddings parametrizados libres. Luego, creamos un conjunto de datos realista llamado LIMIT que somete a prueba los modelos basados en estos resultados teóricos, y observamos que incluso los modelos de última generación fallan en este conjunto de datos a pesar de la naturaleza simple de la tarea. Nuestro trabajo muestra los límites de los modelos de embeddings bajo el paradigma existente de un solo vector y llama a futuras investigaciones para desarrollar métodos que puedan resolver esta limitación fundamental.
English
Vector embeddings have been tasked with an ever-increasing set of retrieval
tasks over the years, with a nascent rise in using them for reasoning,
instruction-following, coding, and more. These new benchmarks push embeddings
to work for any query and any notion of relevance that could be given. While
prior works have pointed out theoretical limitations of vector embeddings,
there is a common assumption that these difficulties are exclusively due to
unrealistic queries, and those that are not can be overcome with better
training data and larger models. In this work, we demonstrate that we may
encounter these theoretical limitations in realistic settings with extremely
simple queries. We connect known results in learning theory, showing that the
number of top-k subsets of documents capable of being returned as the result of
some query is limited by the dimension of the embedding. We empirically show
that this holds true even if we restrict to k=2, and directly optimize on the
test set with free parameterized embeddings. We then create a realistic dataset
called LIMIT that stress tests models based on these theoretical results, and
observe that even state-of-the-art models fail on this dataset despite the
simple nature of the task. Our work shows the limits of embedding models under
the existing single vector paradigm and calls for future research to develop
methods that can resolve this fundamental limitation.