SitEmb-v1.5: Verbeterde contextbewuste dichte retrievalsystemen voor semantische associatie en begrip van lange verhalen
SitEmb-v1.5: Improved Context-Aware Dense Retrieval for Semantic Association and Long Story Comprehension
August 3, 2025
Auteurs: Junjie Wu, Jiangnan Li, Yuqing Li, Lemao Liu, Liyan Xu, Jiwei Li, Dit-Yan Yeung, Jie Zhou, Mo Yu
cs.AI
Samenvatting
Retrieval-augmented generation (RAG) over lange documenten omvat doorgaans het opsplitsen van de tekst in kleinere segmenten, die dienen als de basiseenheden voor retrieval. Vanwege afhankelijkheden in het oorspronkelijke document is contextuele informatie echter vaak essentieel voor een nauwkeurige interpretatie van elk segment. Om dit aan te pakken, heeft eerder onderzoek het coderen van langere contextvensters verkend om embeddings voor langere segmenten te produceren. Ondanks deze inspanningen blijven de verbeteringen in retrieval en downstream taken beperkt. Dit komt omdat (1) langere segmenten de capaciteit van embeddingmodellen belasten door de grotere hoeveelheid informatie die ze moeten coderen, en (2) veel real-world toepassingen nog steeds gelokaliseerd bewijs vereisen vanwege beperkingen in model- of menselijke bandbreedte.
Wij stellen een alternatieve aanpak voor deze uitdaging voor door korte segmenten op een manier te representeren die is geconditioneerd op een breder contextvenster om de retrievalprestaties te verbeteren — dat wil zeggen, de betekenis van een segment binnen zijn context te situeren. We laten verder zien dat bestaande embeddingmodellen niet goed uitgerust zijn om dergelijke gesitueerde context effectief te coderen, en introduceren daarom een nieuw trainingsparadigma en ontwikkelen de gesitueerde embeddingmodellen (SitEmb). Om onze methode te evalueren, hebben we een boekplot-retrievaldataset samengesteld die specifiek is ontworpen om gesitueerde retrievalcapaciteiten te beoordelen. Op deze benchmark presteert ons SitEmb-v1-model, gebaseerd op BGE-M3, aanzienlijk beter dan state-of-the-art embeddingmodellen, waaronder verschillende met tot 7-8B parameters, met slechts 1B parameters. Ons 8B SitEmb-v1.5-model verbetert de prestaties verder met meer dan 10% en laat sterke resultaten zien in verschillende talen en diverse downstream toepassingen.
English
Retrieval-augmented generation (RAG) over long documents typically involves
splitting the text into smaller chunks, which serve as the basic units for
retrieval. However, due to dependencies across the original document,
contextual information is often essential for accurately interpreting each
chunk. To address this, prior work has explored encoding longer context windows
to produce embeddings for longer chunks. Despite these efforts, gains in
retrieval and downstream tasks remain limited. This is because (1) longer
chunks strain the capacity of embedding models due to the increased amount of
information they must encode, and (2) many real-world applications still
require returning localized evidence due to constraints on model or human
bandwidth.
We propose an alternative approach to this challenge by representing short
chunks in a way that is conditioned on a broader context window to enhance
retrieval performance -- i.e., situating a chunk's meaning within its context.
We further show that existing embedding models are not well-equipped to encode
such situated context effectively, and thus introduce a new training paradigm
and develop the situated embedding models (SitEmb). To evaluate our method, we
curate a book-plot retrieval dataset specifically designed to assess situated
retrieval capabilities. On this benchmark, our SitEmb-v1 model based on BGE-M3
substantially outperforms state-of-the-art embedding models, including several
with up to 7-8B parameters, with only 1B parameters. Our 8B SitEmb-v1.5 model
further improves performance by over 10% and shows strong results across
different languages and several downstream applications.