SitEmb-v1.5: Recuperación densa mejorada con conciencia contextual para asociación semántica y comprensión de historias largas

Resumen

La generación aumentada por recuperación (RAG, por sus siglas en inglés) sobre documentos largos generalmente implica dividir el texto en fragmentos más pequeños, que sirven como unidades básicas para la recuperación. Sin embargo, debido a las dependencias presentes en el documento original, la información contextual suele ser esencial para interpretar con precisión cada fragmento. Para abordar esto, trabajos previos han explorado la codificación de ventanas de contexto más largas para generar incrustaciones (embeddings) de fragmentos más extensos. A pesar de estos esfuerzos, las mejoras en la recuperación y las tareas posteriores siguen siendo limitadas. Esto se debe a que (1) los fragmentos más largos sobrecargan la capacidad de los modelos de incrustación debido a la mayor cantidad de información que deben codificar, y (2) muchas aplicaciones del mundo real aún requieren devolver evidencia localizada debido a limitaciones en el ancho de banda del modelo o humano. Proponemos un enfoque alternativo para este desafío al representar fragmentos cortos de una manera que esté condicionada por una ventana de contexto más amplia para mejorar el rendimiento de la recuperación, es decir, situar el significado de un fragmento dentro de su contexto. Además, demostramos que los modelos de incrustación existentes no están bien equipados para codificar de manera efectiva dicho contexto situado y, por lo tanto, introducimos un nuevo paradigma de entrenamiento y desarrollamos los modelos de incrustación situada (SitEmb). Para evaluar nuestro método, creamos un conjunto de datos de recuperación de tramas de libros diseñado específicamente para evaluar las capacidades de recuperación situada. En este punto de referencia, nuestro modelo SitEmb-v1 basado en BGE-M3 supera sustancialmente a los modelos de incrustación más avanzados, incluidos varios con hasta 7-8 mil millones de parámetros, con solo 1 mil millones de parámetros. Nuestro modelo SitEmb-v1.5 de 8 mil millones de parámetros mejora aún más el rendimiento en más del 10% y muestra resultados sólidos en diferentes idiomas y varias aplicaciones posteriores.

English

Retrieval-augmented generation (RAG) over long documents typically involves splitting the text into smaller chunks, which serve as the basic units for retrieval. However, due to dependencies across the original document, contextual information is often essential for accurately interpreting each chunk. To address this, prior work has explored encoding longer context windows to produce embeddings for longer chunks. Despite these efforts, gains in retrieval and downstream tasks remain limited. This is because (1) longer chunks strain the capacity of embedding models due to the increased amount of information they must encode, and (2) many real-world applications still require returning localized evidence due to constraints on model or human bandwidth. We propose an alternative approach to this challenge by representing short chunks in a way that is conditioned on a broader context window to enhance retrieval performance -- i.e., situating a chunk's meaning within its context. We further show that existing embedding models are not well-equipped to encode such situated context effectively, and thus introduce a new training paradigm and develop the situated embedding models (SitEmb). To evaluate our method, we curate a book-plot retrieval dataset specifically designed to assess situated retrieval capabilities. On this benchmark, our SitEmb-v1 model based on BGE-M3 substantially outperforms state-of-the-art embedding models, including several with up to 7-8B parameters, with only 1B parameters. Our 8B SitEmb-v1.5 model further improves performance by over 10% and shows strong results across different languages and several downstream applications.

SitEmb-v1.5: Recuperación densa mejorada con conciencia contextual para asociación semántica y comprensión de historias largas

SitEmb-v1.5: Improved Context-Aware Dense Retrieval for Semantic Association and Long Story Comprehension

Resumen

Support