ChatPaper.aiChatPaper

Incorporation contextuelle des embeddings de documents

Contextual Document Embeddings

October 3, 2024
Auteurs: John X. Morris, Alexander M. Rush
cs.AI

Résumé

Les plongements denses de documents sont essentiels pour la récupération neuronale. Le paradigme dominant consiste à entraîner et construire des plongements en exécutant des codeurs directement sur des documents individuels. Dans ce travail, nous soutenons que ces plongements, bien qu'efficaces, sont implicitement hors contexte pour des cas d'utilisation ciblés de la récupération, et qu'un plongement de document contextualisé devrait prendre en compte à la fois le document et les documents voisins dans le contexte - de manière analogue aux plongements de mots contextualisés. Nous proposons deux méthodes complémentaires pour les plongements de documents contextualisés : premièrement, un objectif alternatif d'apprentissage contrastif qui intègre explicitement les documents voisins dans la perte contextuelle intra-batch ; deuxièmement, une nouvelle architecture contextuelle qui encode explicitement les informations des documents voisins dans la représentation encodée. Les résultats montrent que les deux méthodes obtiennent de meilleures performances que les biencodeurs dans plusieurs contextes, avec des différences particulièrement marquées hors domaine. Nous obtenons des résultats de pointe sur le banc d'essai MTEB sans extraction de négatifs difficiles, distillation des scores, instructions spécifiques au jeu de données, partage d'exemples intra-GPU, ou des tailles de lots extrêmement grandes. Notre méthode peut être appliquée pour améliorer les performances sur n'importe quel jeu de données d'apprentissage contrastif et n'importe quel biencodeur.
English
Dense document embeddings are central to neural retrieval. The dominant paradigm is to train and construct embeddings by running encoders directly on individual documents. In this work, we argue that these embeddings, while effective, are implicitly out-of-context for targeted use cases of retrieval, and that a contextualized document embedding should take into account both the document and neighboring documents in context - analogous to contextualized word embeddings. We propose two complementary methods for contextualized document embeddings: first, an alternative contrastive learning objective that explicitly incorporates the document neighbors into the intra-batch contextual loss; second, a new contextual architecture that explicitly encodes neighbor document information into the encoded representation. Results show that both methods achieve better performance than biencoders in several settings, with differences especially pronounced out-of-domain. We achieve state-of-the-art results on the MTEB benchmark with no hard negative mining, score distillation, dataset-specific instructions, intra-GPU example-sharing, or extremely large batch sizes. Our method can be applied to improve performance on any contrastive learning dataset and any biencoder.

Summary

AI-Generated Summary

PDF234November 16, 2024