SitEmb-v1.5: Recuperación densa mejorada con conciencia contextual para asociación semántica y comprensión de historias largas
SitEmb-v1.5: Improved Context-Aware Dense Retrieval for Semantic Association and Long Story Comprehension
August 3, 2025
Autores: Junjie Wu, Jiangnan Li, Yuqing Li, Lemao Liu, Liyan Xu, Jiwei Li, Dit-Yan Yeung, Jie Zhou, Mo Yu
cs.AI
Resumen
La generación aumentada por recuperación (RAG, por sus siglas en inglés) sobre documentos largos generalmente implica dividir el texto en fragmentos más pequeños, que sirven como unidades básicas para la recuperación. Sin embargo, debido a las dependencias presentes en el documento original, la información contextual suele ser esencial para interpretar con precisión cada fragmento. Para abordar esto, trabajos previos han explorado la codificación de ventanas de contexto más largas para generar incrustaciones (embeddings) de fragmentos más extensos. A pesar de estos esfuerzos, las mejoras en la recuperación y las tareas posteriores siguen siendo limitadas. Esto se debe a que (1) los fragmentos más largos sobrecargan la capacidad de los modelos de incrustación debido a la mayor cantidad de información que deben codificar, y (2) muchas aplicaciones del mundo real aún requieren devolver evidencia localizada debido a limitaciones en el ancho de banda del modelo o humano.
Proponemos un enfoque alternativo para este desafío al representar fragmentos cortos de una manera que esté condicionada por una ventana de contexto más amplia para mejorar el rendimiento de la recuperación, es decir, situar el significado de un fragmento dentro de su contexto. Además, demostramos que los modelos de incrustación existentes no están bien equipados para codificar de manera efectiva dicho contexto situado y, por lo tanto, introducimos un nuevo paradigma de entrenamiento y desarrollamos los modelos de incrustación situada (SitEmb). Para evaluar nuestro método, creamos un conjunto de datos de recuperación de tramas de libros diseñado específicamente para evaluar las capacidades de recuperación situada. En este punto de referencia, nuestro modelo SitEmb-v1 basado en BGE-M3 supera sustancialmente a los modelos de incrustación más avanzados, incluidos varios con hasta 7-8 mil millones de parámetros, con solo 1 mil millones de parámetros. Nuestro modelo SitEmb-v1.5 de 8 mil millones de parámetros mejora aún más el rendimiento en más del 10% y muestra resultados sólidos en diferentes idiomas y varias aplicaciones posteriores.
English
Retrieval-augmented generation (RAG) over long documents typically involves
splitting the text into smaller chunks, which serve as the basic units for
retrieval. However, due to dependencies across the original document,
contextual information is often essential for accurately interpreting each
chunk. To address this, prior work has explored encoding longer context windows
to produce embeddings for longer chunks. Despite these efforts, gains in
retrieval and downstream tasks remain limited. This is because (1) longer
chunks strain the capacity of embedding models due to the increased amount of
information they must encode, and (2) many real-world applications still
require returning localized evidence due to constraints on model or human
bandwidth.
We propose an alternative approach to this challenge by representing short
chunks in a way that is conditioned on a broader context window to enhance
retrieval performance -- i.e., situating a chunk's meaning within its context.
We further show that existing embedding models are not well-equipped to encode
such situated context effectively, and thus introduce a new training paradigm
and develop the situated embedding models (SitEmb). To evaluate our method, we
curate a book-plot retrieval dataset specifically designed to assess situated
retrieval capabilities. On this benchmark, our SitEmb-v1 model based on BGE-M3
substantially outperforms state-of-the-art embedding models, including several
with up to 7-8B parameters, with only 1B parameters. Our 8B SitEmb-v1.5 model
further improves performance by over 10% and shows strong results across
different languages and several downstream applications.