SitEmb-v1.5: Улучшенный контекстно-ориентированный плотный поиск для семантической ассоциации и понимания длинных текстов
SitEmb-v1.5: Improved Context-Aware Dense Retrieval for Semantic Association and Long Story Comprehension
August 3, 2025
Авторы: Junjie Wu, Jiangnan Li, Yuqing Li, Lemao Liu, Liyan Xu, Jiwei Li, Dit-Yan Yeung, Jie Zhou, Mo Yu
cs.AI
Аннотация
Генерация с использованием извлечения информации (RAG) для длинных документов обычно предполагает разделение текста на более мелкие фрагменты, которые служат базовыми единицами для извлечения. Однако из-за зависимостей в исходном документе контекстная информация часто оказывается необходимой для точной интерпретации каждого фрагмента. Для решения этой проблемы в предыдущих работах исследовалось кодирование более длинных контекстных окон для создания эмбеддингов для более крупных фрагментов. Несмотря на эти усилия, улучшения в извлечении и последующих задачах остаются ограниченными. Это связано с тем, что (1) более длинные фрагменты перегружают возможности моделей эмбеддингов из-за увеличения объема информации, которую они должны кодировать, и (2) многие реальные приложения по-прежнему требуют возвращения локализованных доказательств из-за ограничений на пропускную способность модели или человека.
Мы предлагаем альтернативный подход к решению этой проблемы, представляя короткие фрагменты таким образом, чтобы они учитывали более широкое контекстное окно для повышения производительности извлечения — то есть, помещая значение фрагмента в его контекст. Мы также показываем, что существующие модели эмбеддингов недостаточно хорошо справляются с эффективным кодированием такого контекста, и поэтому вводим новую парадигму обучения и разрабатываем модели контекстуализированных эмбеддингов (SitEmb). Для оценки нашего метода мы создаем набор данных для извлечения сюжетов книг, специально разработанный для оценки возможностей контекстуализированного извлечения. На этом эталонном тесте наша модель SitEmb-v1, основанная на BGE-M3, значительно превосходит современные модели эмбеддингов, включая несколько моделей с 7–8 миллиардами параметров, имея всего 1 миллиард параметров. Наша модель SitEmb-v1.5 с 8 миллиардами параметров дополнительно улучшает производительность более чем на 10% и демонстрирует сильные результаты на разных языках и в нескольких последующих приложениях.
English
Retrieval-augmented generation (RAG) over long documents typically involves
splitting the text into smaller chunks, which serve as the basic units for
retrieval. However, due to dependencies across the original document,
contextual information is often essential for accurately interpreting each
chunk. To address this, prior work has explored encoding longer context windows
to produce embeddings for longer chunks. Despite these efforts, gains in
retrieval and downstream tasks remain limited. This is because (1) longer
chunks strain the capacity of embedding models due to the increased amount of
information they must encode, and (2) many real-world applications still
require returning localized evidence due to constraints on model or human
bandwidth.
We propose an alternative approach to this challenge by representing short
chunks in a way that is conditioned on a broader context window to enhance
retrieval performance -- i.e., situating a chunk's meaning within its context.
We further show that existing embedding models are not well-equipped to encode
such situated context effectively, and thus introduce a new training paradigm
and develop the situated embedding models (SitEmb). To evaluate our method, we
curate a book-plot retrieval dataset specifically designed to assess situated
retrieval capabilities. On this benchmark, our SitEmb-v1 model based on BGE-M3
substantially outperforms state-of-the-art embedding models, including several
with up to 7-8B parameters, with only 1B parameters. Our 8B SitEmb-v1.5 model
further improves performance by over 10% and shows strong results across
different languages and several downstream applications.