El contexto es oro para encontrar el pasaje clave: Evaluación y entrenamiento de incrustaciones de documentos contextuales
Context is Gold to find the Gold Passage: Evaluating and Training Contextual Document Embeddings
May 30, 2025
Autores: Max Conti, Manuel Faysse, Gautier Viaud, Antoine Bosselut, Céline Hudelot, Pierre Colombo
cs.AI
Resumen
Una limitación de los métodos modernos de incrustación para la recuperación de documentos es que, por lo general, codifican pasajes (fragmentos) de los mismos documentos de manera independiente, pasando por alto con frecuencia información contextual crucial del resto del documento que podría mejorar significativamente las representaciones individuales de los fragmentos.
En este trabajo, presentamos ConTEB (Context-aware Text Embedding Benchmark), un punto de referencia diseñado para evaluar modelos de recuperación en su capacidad para aprovechar el contexto a nivel de documento. Nuestros resultados muestran que los modelos de incrustación más avanzados tienen dificultades en escenarios de recuperación donde se requiere contexto. Para abordar esta limitación, proponemos InSeNT (In-sequence Negative Training), un enfoque novedoso de post-entrenamiento contrastivo que, combinado con la agrupación tardía de fragmentos, mejora el aprendizaje de representaciones contextuales mientras preserva la eficiencia computacional. Nuestro método mejora significativamente la calidad de la recuperación en ConTEB sin sacrificar el rendimiento del modelo base. Además, encontramos que los fragmentos incrustados con nuestro método son más robustos frente a estrategias de fragmentación subóptimas y tamaños de corpus de recuperación más grandes. Hemos puesto a disposición todos los recursos en https://github.com/illuin-tech/contextual-embeddings.
English
A limitation of modern document retrieval embedding methods is that they
typically encode passages (chunks) from the same documents independently, often
overlooking crucial contextual information from the rest of the document that
could greatly improve individual chunk representations.
In this work, we introduce ConTEB (Context-aware Text Embedding Benchmark), a
benchmark designed to evaluate retrieval models on their ability to leverage
document-wide context. Our results show that state-of-the-art embedding models
struggle in retrieval scenarios where context is required. To address this
limitation, we propose InSeNT (In-sequence Negative Training), a novel
contrastive post-training approach which combined with late chunking pooling
enhances contextual representation learning while preserving computational
efficiency. Our method significantly improves retrieval quality on ConTEB
without sacrificing base model performance. We further find chunks embedded
with our method are more robust to suboptimal chunking strategies and larger
retrieval corpus sizes. We open-source all artifacts at
https://github.com/illuin-tech/contextual-embeddings.