Sobre as Limitações Teóricas da Recuperação Baseada em Embeddings
On the Theoretical Limitations of Embedding-Based Retrieval
August 28, 2025
Autores: Orion Weller, Michael Boratko, Iftekhar Naim, Jinhyuk Lee
cs.AI
Resumo
Os embeddings vetoriais têm sido encarregados de um conjunto cada vez maior de tarefas de recuperação ao longo dos anos, com um aumento recente em seu uso para raciocínio, seguimento de instruções, codificação e mais. Esses novos benchmarks pressionam os embeddings a funcionar para qualquer consulta e qualquer noção de relevância que possa ser dada. Embora trabalhos anteriores tenham apontado limitações teóricas dos embeddings vetoriais, há uma suposição comum de que essas dificuldades se devem exclusivamente a consultas irreais, e que aquelas que não são podem ser superadas com melhores dados de treinamento e modelos maiores. Neste trabalho, demonstramos que podemos encontrar essas limitações teóricas em cenários realistas com consultas extremamente simples. Conectamos resultados conhecidos na teoria da aprendizagem, mostrando que o número de subconjuntos top-k de documentos que podem ser retornados como resultado de alguma consulta é limitado pela dimensão do embedding. Mostramos empiricamente que isso se mantém verdadeiro mesmo se restringirmos a k=2, e otimizamos diretamente no conjunto de teste com embeddings parametrizados livres. Em seguida, criamos um conjunto de dados realista chamado LIMIT que testa modelos com base nesses resultados teóricos, e observamos que até mesmo modelos state-of-the-art falham nesse conjunto de dados, apesar da natureza simples da tarefa. Nosso trabalho mostra os limites dos modelos de embedding sob o paradigma atual de vetor único e pede por pesquisas futuras para desenvolver métodos que possam resolver essa limitação fundamental.
English
Vector embeddings have been tasked with an ever-increasing set of retrieval
tasks over the years, with a nascent rise in using them for reasoning,
instruction-following, coding, and more. These new benchmarks push embeddings
to work for any query and any notion of relevance that could be given. While
prior works have pointed out theoretical limitations of vector embeddings,
there is a common assumption that these difficulties are exclusively due to
unrealistic queries, and those that are not can be overcome with better
training data and larger models. In this work, we demonstrate that we may
encounter these theoretical limitations in realistic settings with extremely
simple queries. We connect known results in learning theory, showing that the
number of top-k subsets of documents capable of being returned as the result of
some query is limited by the dimension of the embedding. We empirically show
that this holds true even if we restrict to k=2, and directly optimize on the
test set with free parameterized embeddings. We then create a realistic dataset
called LIMIT that stress tests models based on these theoretical results, and
observe that even state-of-the-art models fail on this dataset despite the
simple nature of the task. Our work shows the limits of embedding models under
the existing single vector paradigm and calls for future research to develop
methods that can resolve this fundamental limitation.