SitEmb-v1.5: Recuperação Densa com Consciência Contextual Aprimorada para Associação Semântica e Compreensão de Narrativas Longas
SitEmb-v1.5: Improved Context-Aware Dense Retrieval for Semantic Association and Long Story Comprehension
August 3, 2025
Autores: Junjie Wu, Jiangnan Li, Yuqing Li, Lemao Liu, Liyan Xu, Jiwei Li, Dit-Yan Yeung, Jie Zhou, Mo Yu
cs.AI
Resumo
A geração aumentada por recuperação (RAG) em documentos longos geralmente envolve dividir o texto em partes menores, que servem como unidades básicas para a recuperação. No entanto, devido às dependências ao longo do documento original, informações contextuais são frequentemente essenciais para interpretar cada parte com precisão. Para abordar isso, trabalhos anteriores exploraram a codificação de janelas de contexto mais longas para produzir embeddings de partes maiores. Apesar desses esforços, os ganhos em recuperação e tarefas subsequentes permanecem limitados. Isso ocorre porque (1) partes maiores sobrecarregam a capacidade dos modelos de embedding devido ao aumento da quantidade de informações que devem codificar, e (2) muitas aplicações do mundo real ainda exigem a devolução de evidências localizadas devido a limitações na capacidade do modelo ou da largura de banda humana.
Propomos uma abordagem alternativa para esse desafio, representando partes curtas de uma forma condicionada a uma janela de contexto mais ampla para melhorar o desempenho da recuperação — ou seja, situando o significado de uma parte dentro de seu contexto. Além disso, mostramos que os modelos de embedding existentes não são bem equipados para codificar tal contexto situado de forma eficaz e, portanto, introduzimos um novo paradigma de treinamento e desenvolvemos os modelos de embedding situado (SitEmb). Para avaliar nosso método, criamos um conjunto de dados de recuperação de enredo de livros especificamente projetado para avaliar capacidades de recuperação situada. Nesse benchmark, nosso modelo SitEmb-v1, baseado no BGE-M3, supera substancialmente os modelos de embedding state-of-the-art, incluindo vários com até 7-8 bilhões de parâmetros, com apenas 1 bilhão de parâmetros. Nosso modelo SitEmb-v1.5 de 8 bilhões de parâmetros melhora ainda mais o desempenho em mais de 10% e mostra resultados robustos em diferentes idiomas e várias aplicações subsequentes.
English
Retrieval-augmented generation (RAG) over long documents typically involves
splitting the text into smaller chunks, which serve as the basic units for
retrieval. However, due to dependencies across the original document,
contextual information is often essential for accurately interpreting each
chunk. To address this, prior work has explored encoding longer context windows
to produce embeddings for longer chunks. Despite these efforts, gains in
retrieval and downstream tasks remain limited. This is because (1) longer
chunks strain the capacity of embedding models due to the increased amount of
information they must encode, and (2) many real-world applications still
require returning localized evidence due to constraints on model or human
bandwidth.
We propose an alternative approach to this challenge by representing short
chunks in a way that is conditioned on a broader context window to enhance
retrieval performance -- i.e., situating a chunk's meaning within its context.
We further show that existing embedding models are not well-equipped to encode
such situated context effectively, and thus introduce a new training paradigm
and develop the situated embedding models (SitEmb). To evaluate our method, we
curate a book-plot retrieval dataset specifically designed to assess situated
retrieval capabilities. On this benchmark, our SitEmb-v1 model based on BGE-M3
substantially outperforms state-of-the-art embedding models, including several
with up to 7-8B parameters, with only 1B parameters. Our 8B SitEmb-v1.5 model
further improves performance by over 10% and shows strong results across
different languages and several downstream applications.