Контекстные векторные представления документов
Contextual Document Embeddings
October 3, 2024
Авторы: John X. Morris, Alexander M. Rush
cs.AI
Аннотация
Плотные вложения документов играют центральную роль в нейронном поиске. Доминирующая парадигма заключается в обучении и создании вложений путем прямого запуска кодировщиков на отдельных документах. В данной работе мы утверждаем, что эти вложения, хотя и эффективны, неявно не учитывают контекст для целевых сценариев поиска, и что контекстуализированное вложение документа должно учитывать как сам документ, так и соседние документы в контексте - аналогично контекстуализированным вложениям слов. Мы предлагаем два взаимодополняющих метода для контекстуализированных вложений документов: во-первых, альтернативный объект обучения с контрастным обучением, который явно включает соседние документы внутри пакета в контекстуальную потерю; во-вторых, новую контекстуальную архитектуру, которая явно кодирует информацию о соседних документах в закодированное представление. Результаты показывают, что оба метода достигают лучшей производительности, чем биэнкодеры в нескольких сценариях, особенно выраженных вне области применения. Мы достигаем лучших результатов на бенчмарке MTEB без жесткого негативного выбора, дистилляции оценок, инструкций, специфичных для набора данных, обмена примерами внутри GPU или чрезмерно больших размеров пакетов. Наш метод может быть применен для улучшения производительности на любом наборе данных контрастного обучения и любом биэнкодере.
English
Dense document embeddings are central to neural retrieval. The dominant
paradigm is to train and construct embeddings by running encoders directly on
individual documents. In this work, we argue that these embeddings, while
effective, are implicitly out-of-context for targeted use cases of retrieval,
and that a contextualized document embedding should take into account both the
document and neighboring documents in context - analogous to contextualized
word embeddings. We propose two complementary methods for contextualized
document embeddings: first, an alternative contrastive learning objective that
explicitly incorporates the document neighbors into the intra-batch contextual
loss; second, a new contextual architecture that explicitly encodes neighbor
document information into the encoded representation. Results show that both
methods achieve better performance than biencoders in several settings, with
differences especially pronounced out-of-domain. We achieve state-of-the-art
results on the MTEB benchmark with no hard negative mining, score distillation,
dataset-specific instructions, intra-GPU example-sharing, or extremely large
batch sizes. Our method can be applied to improve performance on any
contrastive learning dataset and any biencoder.Summary
AI-Generated Summary