Kontextuelle Dokumenteneinbettungen
Contextual Document Embeddings
October 3, 2024
Autoren: John X. Morris, Alexander M. Rush
cs.AI
Zusammenfassung
Dichte Dokumenteinbettungen sind zentral für neuronales Informationssuchen. Das vorherrschende Paradigma besteht darin, Einbettungen zu trainieren und zu konstruieren, indem Encoder direkt auf einzelnen Dokumenten ausgeführt werden. In dieser Arbeit argumentieren wir, dass diese Einbettungen, obwohl effektiv, implizit nicht kontextbezogen für gezielte Anwendungsfälle des Informationssuchens sind, und dass eine kontextualisierte Dokumenteinbettung sowohl das Dokument als auch benachbarte Dokumente im Kontext berücksichtigen sollte - analog zu kontextualisierten Worteinbettungen. Wir schlagen zwei ergänzende Methoden für kontextualisierte Dokumenteinbettungen vor: erstens ein alternatives kontrastives Lernziel, das die Dokumentnachbarn explizit in den intra-batch Kontextverlust einbezieht; zweitens eine neue kontextualisierte Architektur, die die Informationen benachbarter Dokumente explizit in die codierte Darstellung einbezieht. Die Ergebnisse zeigen, dass beide Methoden in mehreren Einstellungen bessere Leistungen als Biencoder erzielen, wobei die Unterschiede insbesondere außerhalb des Domänenbereichs deutlich ausgeprägt sind. Wir erzielen Spitzenleistungen im MTEB-Benchmark ohne harte negative Auswahl, Punkteverdichtung, datenspezifische Anweisungen, Intra-GPU-Beispielteilung oder extrem große Batch-Größen. Unsere Methode kann angewendet werden, um die Leistung auf jedem kontrastiven Lerndatensatz und jedem Biencoder zu verbessern.
English
Dense document embeddings are central to neural retrieval. The dominant
paradigm is to train and construct embeddings by running encoders directly on
individual documents. In this work, we argue that these embeddings, while
effective, are implicitly out-of-context for targeted use cases of retrieval,
and that a contextualized document embedding should take into account both the
document and neighboring documents in context - analogous to contextualized
word embeddings. We propose two complementary methods for contextualized
document embeddings: first, an alternative contrastive learning objective that
explicitly incorporates the document neighbors into the intra-batch contextual
loss; second, a new contextual architecture that explicitly encodes neighbor
document information into the encoded representation. Results show that both
methods achieve better performance than biencoders in several settings, with
differences especially pronounced out-of-domain. We achieve state-of-the-art
results on the MTEB benchmark with no hard negative mining, score distillation,
dataset-specific instructions, intra-GPU example-sharing, or extremely large
batch sizes. Our method can be applied to improve performance on any
contrastive learning dataset and any biencoder.Summary
AI-Generated Summary