ChatPaper.aiChatPaper

Incorporação de Documentos Contextuais

Contextual Document Embeddings

October 3, 2024
Autores: John X. Morris, Alexander M. Rush
cs.AI

Resumo

As incrustações densas de documentos são fundamentais para a recuperação neural. O paradigma dominante é treinar e construir incrustações executando codificadores diretamente em documentos individuais. Neste trabalho, argumentamos que essas incrustações, embora eficazes, são implicitamente fora de contexto para casos de uso específicos de recuperação, e que uma incrustação contextualizada de documento deve levar em consideração tanto o documento quanto os documentos vizinhos no contexto - análogo às incrustações de palavras contextualizadas. Propomos dois métodos complementares para incrustações contextualizadas de documentos: primeiro, um objetivo alternativo de aprendizado contrastivo que incorpora explicitamente os documentos vizinhos na perda contextual intra lote; segundo, uma nova arquitetura contextual que codifica explicitamente informações do documento vizinho na representação codificada. Os resultados mostram que ambos os métodos alcançam melhor desempenho do que os biencoders em várias configurações, com diferenças especialmente pronunciadas fora do domínio. Alcançamos resultados de ponta no benchmark MTEB sem mineração de negativos difíceis, destilação de pontuação, instruções específicas do conjunto de dados, compartilhamento de exemplos intra-GPU ou tamanhos de lote extremamente grandes. Nosso método pode ser aplicado para melhorar o desempenho em qualquer conjunto de dados de aprendizado contrastivo e qualquer biencoder.
English
Dense document embeddings are central to neural retrieval. The dominant paradigm is to train and construct embeddings by running encoders directly on individual documents. In this work, we argue that these embeddings, while effective, are implicitly out-of-context for targeted use cases of retrieval, and that a contextualized document embedding should take into account both the document and neighboring documents in context - analogous to contextualized word embeddings. We propose two complementary methods for contextualized document embeddings: first, an alternative contrastive learning objective that explicitly incorporates the document neighbors into the intra-batch contextual loss; second, a new contextual architecture that explicitly encodes neighbor document information into the encoded representation. Results show that both methods achieve better performance than biencoders in several settings, with differences especially pronounced out-of-domain. We achieve state-of-the-art results on the MTEB benchmark with no hard negative mining, score distillation, dataset-specific instructions, intra-GPU example-sharing, or extremely large batch sizes. Our method can be applied to improve performance on any contrastive learning dataset and any biencoder.

Summary

AI-Generated Summary

PDF234November 16, 2024