SitEmb-v1.5: Улучшенный контекстно-ориентированный плотный поиск для семантической ассоциации и понимания длинных текстов

Аннотация

Генерация с использованием извлечения информации (RAG) для длинных документов обычно предполагает разделение текста на более мелкие фрагменты, которые служат базовыми единицами для извлечения. Однако из-за зависимостей в исходном документе контекстная информация часто оказывается необходимой для точной интерпретации каждого фрагмента. Для решения этой проблемы в предыдущих работах исследовалось кодирование более длинных контекстных окон для создания эмбеддингов для более крупных фрагментов. Несмотря на эти усилия, улучшения в извлечении и последующих задачах остаются ограниченными. Это связано с тем, что (1) более длинные фрагменты перегружают возможности моделей эмбеддингов из-за увеличения объема информации, которую они должны кодировать, и (2) многие реальные приложения по-прежнему требуют возвращения локализованных доказательств из-за ограничений на пропускную способность модели или человека. Мы предлагаем альтернативный подход к решению этой проблемы, представляя короткие фрагменты таким образом, чтобы они учитывали более широкое контекстное окно для повышения производительности извлечения — то есть, помещая значение фрагмента в его контекст. Мы также показываем, что существующие модели эмбеддингов недостаточно хорошо справляются с эффективным кодированием такого контекста, и поэтому вводим новую парадигму обучения и разрабатываем модели контекстуализированных эмбеддингов (SitEmb). Для оценки нашего метода мы создаем набор данных для извлечения сюжетов книг, специально разработанный для оценки возможностей контекстуализированного извлечения. На этом эталонном тесте наша модель SitEmb-v1, основанная на BGE-M3, значительно превосходит современные модели эмбеддингов, включая несколько моделей с 7–8 миллиардами параметров, имея всего 1 миллиард параметров. Наша модель SitEmb-v1.5 с 8 миллиардами параметров дополнительно улучшает производительность более чем на 10% и демонстрирует сильные результаты на разных языках и в нескольких последующих приложениях.

English

Retrieval-augmented generation (RAG) over long documents typically involves splitting the text into smaller chunks, which serve as the basic units for retrieval. However, due to dependencies across the original document, contextual information is often essential for accurately interpreting each chunk. To address this, prior work has explored encoding longer context windows to produce embeddings for longer chunks. Despite these efforts, gains in retrieval and downstream tasks remain limited. This is because (1) longer chunks strain the capacity of embedding models due to the increased amount of information they must encode, and (2) many real-world applications still require returning localized evidence due to constraints on model or human bandwidth. We propose an alternative approach to this challenge by representing short chunks in a way that is conditioned on a broader context window to enhance retrieval performance -- i.e., situating a chunk's meaning within its context. We further show that existing embedding models are not well-equipped to encode such situated context effectively, and thus introduce a new training paradigm and develop the situated embedding models (SitEmb). To evaluate our method, we curate a book-plot retrieval dataset specifically designed to assess situated retrieval capabilities. On this benchmark, our SitEmb-v1 model based on BGE-M3 substantially outperforms state-of-the-art embedding models, including several with up to 7-8B parameters, with only 1B parameters. Our 8B SitEmb-v1.5 model further improves performance by over 10% and shows strong results across different languages and several downstream applications.

SitEmb-v1.5: Улучшенный контекстно-ориентированный плотный поиск для семантической ассоциации и понимания длинных текстов

SitEmb-v1.5: Improved Context-Aware Dense Retrieval for Semantic Association and Long Story Comprehension

Аннотация

Support