SitEmb-v1.5: Verbesserte kontextbewusste dichte Abfrage für semantische Assoziation und das Verständnis langer Geschichten
SitEmb-v1.5: Improved Context-Aware Dense Retrieval for Semantic Association and Long Story Comprehension
August 3, 2025
papers.authors: Junjie Wu, Jiangnan Li, Yuqing Li, Lemao Liu, Liyan Xu, Jiwei Li, Dit-Yan Yeung, Jie Zhou, Mo Yu
cs.AI
papers.abstract
Die retrieval-augmentierte Generierung (RAG) über lange Dokumente beinhaltet typischerweise die Aufteilung des Textes in kleinere Abschnitte, die als Basiseinheiten für den Abruf dienen. Aufgrund von Abhängigkeiten innerhalb des ursprünglichen Dokuments ist jedoch häufig kontextuelle Information entscheidend, um jeden Abschnitt genau zu interpretieren. Um dies zu adressieren, haben frühere Arbeiten die Kodierung längerer Kontextfenster untersucht, um Einbettungen für längere Abschnitte zu erzeugen. Trotz dieser Bemühungen bleiben die Verbesserungen beim Abruf und in nachgelagerten Aufgaben begrenzt. Dies liegt daran, dass (1) längere Abschnitte die Kapazität von Einbettungsmodellen aufgrund der erhöhten Informationsmenge, die sie kodieren müssen, überfordern, und (2) viele reale Anwendungen aufgrund von Einschränkungen in der Modell- oder menschlichen Bandbreite weiterhin lokalisiertes Beweismaterial erfordern.
Wir schlagen einen alternativen Ansatz zur Bewältigung dieser Herausforderung vor, indem wir kurze Abschnitte auf eine Weise darstellen, die auf einem breiteren Kontextfenster basiert, um die Abrufleistung zu verbessern – d.h., die Bedeutung eines Abschnitts innerhalb seines Kontexts zu verorten. Wir zeigen weiterhin, dass bestehende Einbettungsmodelle nicht gut geeignet sind, einen solchen verorteten Kontext effektiv zu kodieren, und führen daher ein neues Trainingsparadigma ein und entwickeln die verorteten Einbettungsmodelle (SitEmb). Um unsere Methode zu evaluieren, haben wir einen Buchplot-Abrufdatensatz erstellt, der speziell darauf ausgelegt ist, die Fähigkeiten zum verorteten Abruf zu bewerten. Auf diesem Benchmark übertrifft unser SitEmb-v1-Modell, basierend auf BGE-M3, deutlich state-of-the-art Einbettungsmodelle, einschließlich mehrerer Modelle mit bis zu 7-8B Parametern, mit nur 1B Parametern. Unser 8B SitEmb-v1.5-Modell verbessert die Leistung weiter um über 10 % und zeigt starke Ergebnisse über verschiedene Sprachen und mehrere nachgelagerte Anwendungen hinweg.
English
Retrieval-augmented generation (RAG) over long documents typically involves
splitting the text into smaller chunks, which serve as the basic units for
retrieval. However, due to dependencies across the original document,
contextual information is often essential for accurately interpreting each
chunk. To address this, prior work has explored encoding longer context windows
to produce embeddings for longer chunks. Despite these efforts, gains in
retrieval and downstream tasks remain limited. This is because (1) longer
chunks strain the capacity of embedding models due to the increased amount of
information they must encode, and (2) many real-world applications still
require returning localized evidence due to constraints on model or human
bandwidth.
We propose an alternative approach to this challenge by representing short
chunks in a way that is conditioned on a broader context window to enhance
retrieval performance -- i.e., situating a chunk's meaning within its context.
We further show that existing embedding models are not well-equipped to encode
such situated context effectively, and thus introduce a new training paradigm
and develop the situated embedding models (SitEmb). To evaluate our method, we
curate a book-plot retrieval dataset specifically designed to assess situated
retrieval capabilities. On this benchmark, our SitEmb-v1 model based on BGE-M3
substantially outperforms state-of-the-art embedding models, including several
with up to 7-8B parameters, with only 1B parameters. Our 8B SitEmb-v1.5 model
further improves performance by over 10% and shows strong results across
different languages and several downstream applications.