SitEmb-v1.5: 의미적 연관성 및 장편 스토리 이해를 위한 개선된 상황 인식 밀집 검색
SitEmb-v1.5: Improved Context-Aware Dense Retrieval for Semantic Association and Long Story Comprehension
August 3, 2025
저자: Junjie Wu, Jiangnan Li, Yuqing Li, Lemao Liu, Liyan Xu, Jiwei Li, Dit-Yan Yeung, Jie Zhou, Mo Yu
cs.AI
초록
긴 문서에 대한 검색 강화 생성(Retrieval-Augmented Generation, RAG)은 일반적으로 텍스트를 더 작은 청크로 분할하여 이를 검색의 기본 단위로 사용합니다. 그러나 원본 문서 내의 의존성으로 인해 각 청크를 정확히 해석하기 위해서는 문맥 정보가 필수적입니다. 이를 해결하기 위해, 기존 연구에서는 더 긴 문맥 창을 인코딩하여 더 긴 청크에 대한 임베딩을 생성하는 방법을 탐구했습니다. 이러한 노력에도 불구하고, 검색 및 하위 작업에서의 성과는 여전히 제한적입니다. 이는 (1) 더 긴 청크가 인코딩해야 하는 정보량이 증가함에 따라 임베딩 모델의 용량을 초과하기 때문이며, (2) 모델 또는 인간의 대역폭 제약으로 인해 많은 실제 응용 프로그램에서 여전히 지역화된 증거를 반환해야 하기 때문입니다.
이러한 문제를 해결하기 위해, 우리는 더 넓은 문맥 창에 기반하여 짧은 청크를 표현함으로써 검색 성능을 향상시키는 대안적 접근 방식을 제안합니다. 즉, 청크의 의미를 그 문맥 내에 위치시킴으로써 이를 달성합니다. 또한, 기존의 임베딩 모델이 이러한 위치적 문맥을 효과적으로 인코딩하는 데 적합하지 않음을 보이고, 이를 위해 새로운 훈련 패러다임을 도입하여 위치적 임베딩 모델(SitEmb)을 개발합니다. 우리의 방법을 평가하기 위해, 위치적 검색 능력을 평가하기 위해 특별히 설계된 책 플롯 검색 데이터셋을 구축했습니다. 이 벤치마크에서, BGE-M3 기반의 SitEmb-v1 모델은 1B 파라미터만으로도 최대 7-8B 파라미터를 가진 여러 최신 임베딩 모델을 크게 능가합니다. 또한, 8B 파라미터를 가진 SitEmb-v1.5 모델은 성능을 10% 이상 더 향상시키며, 다양한 언어와 여러 하위 응용 프로그램에서 강력한 결과를 보여줍니다.
English
Retrieval-augmented generation (RAG) over long documents typically involves
splitting the text into smaller chunks, which serve as the basic units for
retrieval. However, due to dependencies across the original document,
contextual information is often essential for accurately interpreting each
chunk. To address this, prior work has explored encoding longer context windows
to produce embeddings for longer chunks. Despite these efforts, gains in
retrieval and downstream tasks remain limited. This is because (1) longer
chunks strain the capacity of embedding models due to the increased amount of
information they must encode, and (2) many real-world applications still
require returning localized evidence due to constraints on model or human
bandwidth.
We propose an alternative approach to this challenge by representing short
chunks in a way that is conditioned on a broader context window to enhance
retrieval performance -- i.e., situating a chunk's meaning within its context.
We further show that existing embedding models are not well-equipped to encode
such situated context effectively, and thus introduce a new training paradigm
and develop the situated embedding models (SitEmb). To evaluate our method, we
curate a book-plot retrieval dataset specifically designed to assess situated
retrieval capabilities. On this benchmark, our SitEmb-v1 model based on BGE-M3
substantially outperforms state-of-the-art embedding models, including several
with up to 7-8B parameters, with only 1B parameters. Our 8B SitEmb-v1.5 model
further improves performance by over 10% and shows strong results across
different languages and several downstream applications.