SitEmb-v1.5: Recupero Denso Consapevole del Contesto Migliorato per Associazioni Semantiche e Comprensione di Storie Lunghe
SitEmb-v1.5: Improved Context-Aware Dense Retrieval for Semantic Association and Long Story Comprehension
August 3, 2025
Autori: Junjie Wu, Jiangnan Li, Yuqing Li, Lemao Liu, Liyan Xu, Jiwei Li, Dit-Yan Yeung, Jie Zhou, Mo Yu
cs.AI
Abstract
La generazione aumentata da recupero (RAG) su documenti lunghi comporta tipicamente la suddivisione del testo in segmenti più piccoli, che fungono da unità di base per il recupero. Tuttavia, a causa delle dipendenze presenti nel documento originale, le informazioni contestuali sono spesso essenziali per interpretare accuratamente ciascun segmento. Per affrontare questo problema, lavori precedenti hanno esplorato la codifica di finestre contestuali più ampie per produrre embedding per segmenti più lunghi. Nonostante questi sforzi, i miglioramenti nel recupero e nelle attività downstream rimangono limitati. Ciò è dovuto a (1) i segmenti più lunghi mettono a dura prova la capacità dei modelli di embedding a causa della maggiore quantità di informazioni che devono codificare, e (2) molte applicazioni reali richiedono ancora la restituzione di evidenze localizzate a causa di vincoli sulla larghezza di banda del modello o umana.
Proponiamo un approccio alternativo a questa sfida rappresentando i segmenti brevi in modo che siano condizionati da una finestra contestuale più ampia per migliorare le prestazioni di recupero, ovvero situando il significato di un segmento all'interno del suo contesto. Dimostriamo inoltre che i modelli di embedding esistenti non sono adeguatamente attrezzati per codificare efficacemente tale contesto situato, e quindi introduciamo un nuovo paradigma di addestramento e sviluppiamo i modelli di embedding situati (SitEmb). Per valutare il nostro metodo, abbiamo curato un dataset di recupero di trame di libri specificamente progettato per valutare le capacità di recupero situato. Su questo benchmark, il nostro modello SitEmb-v1 basato su BGE-M3 supera sostanzialmente i modelli di embedding all'avanguardia, inclusi diversi con fino a 7-8 miliardi di parametri, con solo 1 miliardo di parametri. Il nostro modello SitEmb-v1.5 da 8 miliardi di parametri migliora ulteriormente le prestazioni di oltre il 10% e mostra risultati solidi in diverse lingue e in diverse applicazioni downstream.
English
Retrieval-augmented generation (RAG) over long documents typically involves
splitting the text into smaller chunks, which serve as the basic units for
retrieval. However, due to dependencies across the original document,
contextual information is often essential for accurately interpreting each
chunk. To address this, prior work has explored encoding longer context windows
to produce embeddings for longer chunks. Despite these efforts, gains in
retrieval and downstream tasks remain limited. This is because (1) longer
chunks strain the capacity of embedding models due to the increased amount of
information they must encode, and (2) many real-world applications still
require returning localized evidence due to constraints on model or human
bandwidth.
We propose an alternative approach to this challenge by representing short
chunks in a way that is conditioned on a broader context window to enhance
retrieval performance -- i.e., situating a chunk's meaning within its context.
We further show that existing embedding models are not well-equipped to encode
such situated context effectively, and thus introduce a new training paradigm
and develop the situated embedding models (SitEmb). To evaluate our method, we
curate a book-plot retrieval dataset specifically designed to assess situated
retrieval capabilities. On this benchmark, our SitEmb-v1 model based on BGE-M3
substantially outperforms state-of-the-art embedding models, including several
with up to 7-8B parameters, with only 1B parameters. Our 8B SitEmb-v1.5 model
further improves performance by over 10% and shows strong results across
different languages and several downstream applications.