ChatPaper.aiChatPaper

Контекст — это золото для поиска золотого фрагмента: оценка и обучение контекстуальных векторных представлений документов

Context is Gold to find the Gold Passage: Evaluating and Training Contextual Document Embeddings

May 30, 2025
Авторы: Max Conti, Manuel Faysse, Gautier Viaud, Antoine Bosselut, Céline Hudelot, Pierre Colombo
cs.AI

Аннотация

Одним из ограничений современных методов получения векторных представлений для поиска документов является то, что они обычно кодируют фрагменты (чанки) из одних и тех же документов независимо, часто упуская важную контекстную информацию из остальной части документа, которая могла бы значительно улучшить представление отдельных фрагментов. В данной работе мы представляем ConTEB (Context-aware Text Embedding Benchmark) — эталонный набор данных, предназначенный для оценки моделей поиска на их способность учитывать контекст всего документа. Наши результаты показывают, что современные модели векторных представлений испытывают трудности в сценариях поиска, где требуется учет контекста. Чтобы устранить это ограничение, мы предлагаем InSeNT (In-sequence Negative Training) — новый контрастивный метод пост-обучения, который в сочетании с пулингом на уровне фрагментов улучшает обучение контекстных представлений, сохраняя при этом вычислительную эффективность. Наш метод значительно повышает качество поиска на ConTEB без ухудшения базовой производительности модели. Кроме того, мы обнаруживаем, что фрагменты, представленные с помощью нашего метода, более устойчивы к неоптимальным стратегиям разбиения на чанки и большим размерам корпусов для поиска. Все материалы доступны в открытом доступе по адресу https://github.com/illuin-tech/contextual-embeddings.
English
A limitation of modern document retrieval embedding methods is that they typically encode passages (chunks) from the same documents independently, often overlooking crucial contextual information from the rest of the document that could greatly improve individual chunk representations. In this work, we introduce ConTEB (Context-aware Text Embedding Benchmark), a benchmark designed to evaluate retrieval models on their ability to leverage document-wide context. Our results show that state-of-the-art embedding models struggle in retrieval scenarios where context is required. To address this limitation, we propose InSeNT (In-sequence Negative Training), a novel contrastive post-training approach which combined with late chunking pooling enhances contextual representation learning while preserving computational efficiency. Our method significantly improves retrieval quality on ConTEB without sacrificing base model performance. We further find chunks embedded with our method are more robust to suboptimal chunking strategies and larger retrieval corpus sizes. We open-source all artifacts at https://github.com/illuin-tech/contextual-embeddings.
PDF12June 2, 2025