Rappresentazioni Contestuali dei Documenti

Abstract

Gli embedding densi dei documenti sono centrali per il recupero neurale. Il paradigma dominante è quello di addestrare e costruire gli embedding eseguendo direttamente gli encoder sui singoli documenti. In questo lavoro, sosteniamo che questi embedding, sebbene efficaci, siano implicitamente fuori contesto per utilizzi mirati di recupero e che un embedding contestualizzato del documento dovrebbe tener conto sia del documento che dei documenti vicini nel contesto - in modo analogo agli embedding contestualizzati delle parole. Proponiamo due metodi complementari per gli embedding contestualizzati dei documenti: in primo luogo, un obiettivo alternativo di apprendimento contrastivo che incorpora esplicitamente i documenti vicini nella perdita contestuale intra-batch; in secondo luogo, una nuova architettura contestualizzata che codifica esplicitamente le informazioni dei documenti vicini nella rappresentazione codificata. I risultati mostrano che entrambi i metodi raggiungono prestazioni migliori rispetto ai biencoder in diversi contesti, con differenze particolarmente pronunciate fuori dominio. Otteniamo risultati all'avanguardia sul benchmark MTEB senza estrazione di negativi difficili, distillazione dei punteggi, istruzioni specifiche del dataset, condivisione di esempi intra-GPU o dimensioni di batch estremamente grandi. Il nostro metodo può essere applicato per migliorare le prestazioni su qualsiasi dataset di apprendimento contrastivo e su qualsiasi biencoder.

English

Dense document embeddings are central to neural retrieval. The dominant paradigm is to train and construct embeddings by running encoders directly on individual documents. In this work, we argue that these embeddings, while effective, are implicitly out-of-context for targeted use cases of retrieval, and that a contextualized document embedding should take into account both the document and neighboring documents in context - analogous to contextualized word embeddings. We propose two complementary methods for contextualized document embeddings: first, an alternative contrastive learning objective that explicitly incorporates the document neighbors into the intra-batch contextual loss; second, a new contextual architecture that explicitly encodes neighbor document information into the encoded representation. Results show that both methods achieve better performance than biencoders in several settings, with differences especially pronounced out-of-domain. We achieve state-of-the-art results on the MTEB benchmark with no hard negative mining, score distillation, dataset-specific instructions, intra-GPU example-sharing, or extremely large batch sizes. Our method can be applied to improve performance on any contrastive learning dataset and any biencoder.

Rappresentazioni Contestuali dei Documenti

Contextual Document Embeddings

Abstract

Support