SitEmb-v1.5 : Amélioration de la recherche dense contextuelle pour l'association sémantique et la compréhension de récits longs
SitEmb-v1.5: Improved Context-Aware Dense Retrieval for Semantic Association and Long Story Comprehension
August 3, 2025
papers.authors: Junjie Wu, Jiangnan Li, Yuqing Li, Lemao Liu, Liyan Xu, Jiwei Li, Dit-Yan Yeung, Jie Zhou, Mo Yu
cs.AI
papers.abstract
La génération augmentée par la récupération (RAG) sur des documents longs implique généralement de diviser le texte en segments plus petits, qui servent d'unités de base pour la récupération. Cependant, en raison des dépendances présentes dans le document original, les informations contextuelles sont souvent essentielles pour interpréter chaque segment avec précision. Pour résoudre ce problème, des travaux antérieurs ont exploré l'encodage de fenêtres contextuelles plus longues afin de produire des embeddings pour des segments plus étendus. Malgré ces efforts, les gains en matière de récupération et de tâches en aval restent limités. Cela s'explique par deux raisons principales : (1) les segments plus longs sollicitent davantage la capacité des modèles d'embedding en raison de la quantité accrue d'informations à encoder, et (2) de nombreuses applications réelles nécessitent encore de retourner des preuves localisées en raison des contraintes liées à la bande passante des modèles ou des humains.
Nous proposons une approche alternative à ce défi en représentant des segments courts de manière conditionnée par une fenêtre contextuelle plus large, afin d'améliorer les performances de récupération — c'est-à-dire en situant la signification d'un segment dans son contexte. Nous démontrons en outre que les modèles d'embedding existants ne sont pas bien adaptés pour encoder efficacement un tel contexte situé, et introduisons donc un nouveau paradigme d'entraînement pour développer les modèles d'embedding situés (SitEmb). Pour évaluer notre méthode, nous avons constitué un ensemble de données de récupération d'intrigues de livres spécialement conçu pour évaluer les capacités de récupération située. Sur ce benchmark, notre modèle SitEmb-v1, basé sur BGE-M3, surpasse largement les modèles d'embedding de pointe, y compris plusieurs modèles comptant jusqu'à 7-8 milliards de paramètres, avec seulement 1 milliard de paramètres. Notre modèle SitEmb-v1.5 à 8 milliards de paramètres améliore encore les performances de plus de 10 % et montre des résultats solides dans différentes langues et pour plusieurs applications en aval.
English
Retrieval-augmented generation (RAG) over long documents typically involves
splitting the text into smaller chunks, which serve as the basic units for
retrieval. However, due to dependencies across the original document,
contextual information is often essential for accurately interpreting each
chunk. To address this, prior work has explored encoding longer context windows
to produce embeddings for longer chunks. Despite these efforts, gains in
retrieval and downstream tasks remain limited. This is because (1) longer
chunks strain the capacity of embedding models due to the increased amount of
information they must encode, and (2) many real-world applications still
require returning localized evidence due to constraints on model or human
bandwidth.
We propose an alternative approach to this challenge by representing short
chunks in a way that is conditioned on a broader context window to enhance
retrieval performance -- i.e., situating a chunk's meaning within its context.
We further show that existing embedding models are not well-equipped to encode
such situated context effectively, and thus introduce a new training paradigm
and develop the situated embedding models (SitEmb). To evaluate our method, we
curate a book-plot retrieval dataset specifically designed to assess situated
retrieval capabilities. On this benchmark, our SitEmb-v1 model based on BGE-M3
substantially outperforms state-of-the-art embedding models, including several
with up to 7-8B parameters, with only 1B parameters. Our 8B SitEmb-v1.5 model
further improves performance by over 10% and shows strong results across
different languages and several downstream applications.