SitEmb-v1.5: Recupero Denso Consapevole del Contesto Migliorato per Associazioni Semantiche e Comprensione di Storie Lunghe

Abstract

La generazione aumentata da recupero (RAG) su documenti lunghi comporta tipicamente la suddivisione del testo in segmenti più piccoli, che fungono da unità di base per il recupero. Tuttavia, a causa delle dipendenze presenti nel documento originale, le informazioni contestuali sono spesso essenziali per interpretare accuratamente ciascun segmento. Per affrontare questo problema, lavori precedenti hanno esplorato la codifica di finestre contestuali più ampie per produrre embedding per segmenti più lunghi. Nonostante questi sforzi, i miglioramenti nel recupero e nelle attività downstream rimangono limitati. Ciò è dovuto a (1) i segmenti più lunghi mettono a dura prova la capacità dei modelli di embedding a causa della maggiore quantità di informazioni che devono codificare, e (2) molte applicazioni reali richiedono ancora la restituzione di evidenze localizzate a causa di vincoli sulla larghezza di banda del modello o umana. Proponiamo un approccio alternativo a questa sfida rappresentando i segmenti brevi in modo che siano condizionati da una finestra contestuale più ampia per migliorare le prestazioni di recupero, ovvero situando il significato di un segmento all'interno del suo contesto. Dimostriamo inoltre che i modelli di embedding esistenti non sono adeguatamente attrezzati per codificare efficacemente tale contesto situato, e quindi introduciamo un nuovo paradigma di addestramento e sviluppiamo i modelli di embedding situati (SitEmb). Per valutare il nostro metodo, abbiamo curato un dataset di recupero di trame di libri specificamente progettato per valutare le capacità di recupero situato. Su questo benchmark, il nostro modello SitEmb-v1 basato su BGE-M3 supera sostanzialmente i modelli di embedding all'avanguardia, inclusi diversi con fino a 7-8 miliardi di parametri, con solo 1 miliardo di parametri. Il nostro modello SitEmb-v1.5 da 8 miliardi di parametri migliora ulteriormente le prestazioni di oltre il 10% e mostra risultati solidi in diverse lingue e in diverse applicazioni downstream.

English

Retrieval-augmented generation (RAG) over long documents typically involves splitting the text into smaller chunks, which serve as the basic units for retrieval. However, due to dependencies across the original document, contextual information is often essential for accurately interpreting each chunk. To address this, prior work has explored encoding longer context windows to produce embeddings for longer chunks. Despite these efforts, gains in retrieval and downstream tasks remain limited. This is because (1) longer chunks strain the capacity of embedding models due to the increased amount of information they must encode, and (2) many real-world applications still require returning localized evidence due to constraints on model or human bandwidth. We propose an alternative approach to this challenge by representing short chunks in a way that is conditioned on a broader context window to enhance retrieval performance -- i.e., situating a chunk's meaning within its context. We further show that existing embedding models are not well-equipped to encode such situated context effectively, and thus introduce a new training paradigm and develop the situated embedding models (SitEmb). To evaluate our method, we curate a book-plot retrieval dataset specifically designed to assess situated retrieval capabilities. On this benchmark, our SitEmb-v1 model based on BGE-M3 substantially outperforms state-of-the-art embedding models, including several with up to 7-8B parameters, with only 1B parameters. Our 8B SitEmb-v1.5 model further improves performance by over 10% and shows strong results across different languages and several downstream applications.

SitEmb-v1.5: Recupero Denso Consapevole del Contesto Migliorato per Associazioni Semantiche e Comprensione di Storie Lunghe

SitEmb-v1.5: Improved Context-Aware Dense Retrieval for Semantic Association and Long Story Comprehension

Abstract

Support