Rappresentazioni Contestuali dei Documenti
Contextual Document Embeddings
October 3, 2024
Autori: John X. Morris, Alexander M. Rush
cs.AI
Abstract
Gli embedding densi dei documenti sono centrali per il recupero neurale. Il paradigma dominante è quello di addestrare e costruire gli embedding eseguendo direttamente gli encoder sui singoli documenti. In questo lavoro, sosteniamo che questi embedding, sebbene efficaci, siano implicitamente fuori contesto per utilizzi mirati di recupero e che un embedding contestualizzato del documento dovrebbe tener conto sia del documento che dei documenti vicini nel contesto - in modo analogo agli embedding contestualizzati delle parole. Proponiamo due metodi complementari per gli embedding contestualizzati dei documenti: in primo luogo, un obiettivo alternativo di apprendimento contrastivo che incorpora esplicitamente i documenti vicini nella perdita contestuale intra-batch; in secondo luogo, una nuova architettura contestualizzata che codifica esplicitamente le informazioni dei documenti vicini nella rappresentazione codificata. I risultati mostrano che entrambi i metodi raggiungono prestazioni migliori rispetto ai biencoder in diversi contesti, con differenze particolarmente pronunciate fuori dominio. Otteniamo risultati all'avanguardia sul benchmark MTEB senza estrazione di negativi difficili, distillazione dei punteggi, istruzioni specifiche del dataset, condivisione di esempi intra-GPU o dimensioni di batch estremamente grandi. Il nostro metodo può essere applicato per migliorare le prestazioni su qualsiasi dataset di apprendimento contrastivo e su qualsiasi biencoder.
English
Dense document embeddings are central to neural retrieval. The dominant
paradigm is to train and construct embeddings by running encoders directly on
individual documents. In this work, we argue that these embeddings, while
effective, are implicitly out-of-context for targeted use cases of retrieval,
and that a contextualized document embedding should take into account both the
document and neighboring documents in context - analogous to contextualized
word embeddings. We propose two complementary methods for contextualized
document embeddings: first, an alternative contrastive learning objective that
explicitly incorporates the document neighbors into the intra-batch contextual
loss; second, a new contextual architecture that explicitly encodes neighbor
document information into the encoded representation. Results show that both
methods achieve better performance than biencoders in several settings, with
differences especially pronounced out-of-domain. We achieve state-of-the-art
results on the MTEB benchmark with no hard negative mining, score distillation,
dataset-specific instructions, intra-GPU example-sharing, or extremely large
batch sizes. Our method can be applied to improve performance on any
contrastive learning dataset and any biencoder.