SitEmb-v1.5: 意味的関連性と長文理解のための改良された文脈認識型高密度検索
SitEmb-v1.5: Improved Context-Aware Dense Retrieval for Semantic Association and Long Story Comprehension
August 3, 2025
著者: Junjie Wu, Jiangnan Li, Yuqing Li, Lemao Liu, Liyan Xu, Jiwei Li, Dit-Yan Yeung, Jie Zhou, Mo Yu
cs.AI
要旨
長文書に対する検索拡張生成(RAG)では、通常、テキストを小さなチャンクに分割し、それを検索の基本単位とします。しかし、元の文書全体にわたる依存関係のため、各チャンクを正確に解釈するためには文脈情報が不可欠です。この問題に対処するため、これまでの研究では、より長い文脈ウィンドウをエンコードして、より長いチャンクの埋め込みを生成する方法が探求されてきました。しかし、これらの取り組みにもかかわらず、検索や下流タスクにおける改善は限定的です。これは、(1) 長いチャンクはエンコードすべき情報量が増えるため、埋め込みモデルの容量に負荷がかかること、(2) 多くの実世界のアプリケーションでは、モデルや人間の処理能力の制約から、局所的な証拠を返す必要があるためです。
この課題に対し、我々は、短いチャンクを広い文脈ウィンドウに基づいて表現することで、検索性能を向上させる代替アプローチを提案します。つまり、チャンクの意味をその文脈内に位置づける方法です。さらに、既存の埋め込みモデルは、このような文脈を効果的にエンコードするようには設計されていないことを示し、新しいトレーニングパラダイムを導入して、文脈依存型埋め込みモデル(SitEmb)を開発します。我々の手法を評価するため、文脈依存型検索能力を評価するために特別に設計された書籍プロット検索データセットを構築しました。このベンチマークにおいて、我々のBGE-M3に基づくSitEmb-v1モデルは、最大7-8Bパラメータを持ついくつかの最先端の埋め込みモデルを大幅に上回り、わずか1Bパラメータで優れた性能を発揮しました。さらに、8BパラメータのSitEmb-v1.5モデルは、性能を10%以上向上させ、異なる言語や複数の下流アプリケーションにおいても強い結果を示しました。
English
Retrieval-augmented generation (RAG) over long documents typically involves
splitting the text into smaller chunks, which serve as the basic units for
retrieval. However, due to dependencies across the original document,
contextual information is often essential for accurately interpreting each
chunk. To address this, prior work has explored encoding longer context windows
to produce embeddings for longer chunks. Despite these efforts, gains in
retrieval and downstream tasks remain limited. This is because (1) longer
chunks strain the capacity of embedding models due to the increased amount of
information they must encode, and (2) many real-world applications still
require returning localized evidence due to constraints on model or human
bandwidth.
We propose an alternative approach to this challenge by representing short
chunks in a way that is conditioned on a broader context window to enhance
retrieval performance -- i.e., situating a chunk's meaning within its context.
We further show that existing embedding models are not well-equipped to encode
such situated context effectively, and thus introduce a new training paradigm
and develop the situated embedding models (SitEmb). To evaluate our method, we
curate a book-plot retrieval dataset specifically designed to assess situated
retrieval capabilities. On this benchmark, our SitEmb-v1 model based on BGE-M3
substantially outperforms state-of-the-art embedding models, including several
with up to 7-8B parameters, with only 1B parameters. Our 8B SitEmb-v1.5 model
further improves performance by over 10% and shows strong results across
different languages and several downstream applications.