Incrustaciones de Documentos Contextuales

Resumen

Los embeddings densos de documentos son fundamentales para la recuperación neural. El paradigma dominante consiste en entrenar y construir embeddings ejecutando codificadores directamente en documentos individuales. En este trabajo, argumentamos que estos embeddings, aunque efectivos, están implícitamente fuera de contexto para casos de uso específicos de recuperación, y que un embedding contextualizado de documentos debería tener en cuenta tanto el documento como los documentos vecinos en contexto, de manera análoga a los embeddings de palabras contextualizados. Proponemos dos métodos complementarios para embeddings contextualizados de documentos: primero, un objetivo alternativo de aprendizaje contrastivo que incorpora explícitamente los documentos vecinos en la pérdida contextual intra-batch; segundo, una nueva arquitectura contextual que codifica explícitamente la información de documentos vecinos en la representación codificada. Los resultados muestran que ambos métodos logran un mejor rendimiento que los biencoders en varios escenarios, con diferencias especialmente pronunciadas fuera de dominio. Alcanzamos resultados de vanguardia en el banco de pruebas MTEB sin minería de negativos difíciles, destilación de puntuaciones, instrucciones específicas del conjunto de datos, intercambio de ejemplos intra-GPU o tamaños de lote extremadamente grandes. Nuestro método puede aplicarse para mejorar el rendimiento en cualquier conjunto de datos de aprendizaje contrastivo y cualquier biencoder.

English

Dense document embeddings are central to neural retrieval. The dominant paradigm is to train and construct embeddings by running encoders directly on individual documents. In this work, we argue that these embeddings, while effective, are implicitly out-of-context for targeted use cases of retrieval, and that a contextualized document embedding should take into account both the document and neighboring documents in context - analogous to contextualized word embeddings. We propose two complementary methods for contextualized document embeddings: first, an alternative contrastive learning objective that explicitly incorporates the document neighbors into the intra-batch contextual loss; second, a new contextual architecture that explicitly encodes neighbor document information into the encoded representation. Results show that both methods achieve better performance than biencoders in several settings, with differences especially pronounced out-of-domain. We achieve state-of-the-art results on the MTEB benchmark with no hard negative mining, score distillation, dataset-specific instructions, intra-GPU example-sharing, or extremely large batch sizes. Our method can be applied to improve performance on any contrastive learning dataset and any biencoder.

Incrustaciones de Documentos Contextuales

Contextual Document Embeddings

Resumen

Support