Incrustaciones de Documentos Contextuales
Contextual Document Embeddings
October 3, 2024
Autores: John X. Morris, Alexander M. Rush
cs.AI
Resumen
Los embeddings densos de documentos son fundamentales para la recuperación neural. El paradigma dominante consiste en entrenar y construir embeddings ejecutando codificadores directamente en documentos individuales. En este trabajo, argumentamos que estos embeddings, aunque efectivos, están implícitamente fuera de contexto para casos de uso específicos de recuperación, y que un embedding contextualizado de documentos debería tener en cuenta tanto el documento como los documentos vecinos en contexto, de manera análoga a los embeddings de palabras contextualizados. Proponemos dos métodos complementarios para embeddings contextualizados de documentos: primero, un objetivo alternativo de aprendizaje contrastivo que incorpora explícitamente los documentos vecinos en la pérdida contextual intra-batch; segundo, una nueva arquitectura contextual que codifica explícitamente la información de documentos vecinos en la representación codificada. Los resultados muestran que ambos métodos logran un mejor rendimiento que los biencoders en varios escenarios, con diferencias especialmente pronunciadas fuera de dominio. Alcanzamos resultados de vanguardia en el banco de pruebas MTEB sin minería de negativos difíciles, destilación de puntuaciones, instrucciones específicas del conjunto de datos, intercambio de ejemplos intra-GPU o tamaños de lote extremadamente grandes. Nuestro método puede aplicarse para mejorar el rendimiento en cualquier conjunto de datos de aprendizaje contrastivo y cualquier biencoder.
English
Dense document embeddings are central to neural retrieval. The dominant
paradigm is to train and construct embeddings by running encoders directly on
individual documents. In this work, we argue that these embeddings, while
effective, are implicitly out-of-context for targeted use cases of retrieval,
and that a contextualized document embedding should take into account both the
document and neighboring documents in context - analogous to contextualized
word embeddings. We propose two complementary methods for contextualized
document embeddings: first, an alternative contrastive learning objective that
explicitly incorporates the document neighbors into the intra-batch contextual
loss; second, a new contextual architecture that explicitly encodes neighbor
document information into the encoded representation. Results show that both
methods achieve better performance than biencoders in several settings, with
differences especially pronounced out-of-domain. We achieve state-of-the-art
results on the MTEB benchmark with no hard negative mining, score distillation,
dataset-specific instructions, intra-GPU example-sharing, or extremely large
batch sizes. Our method can be applied to improve performance on any
contrastive learning dataset and any biencoder.