EvoEmbedding: Representaciones Evolucionables para Recuperación de Contexto Largo y Memoria Agéntica

Resumen

Los modelos de embedding existentes son inherentemente estáticos: codifican segmentos de texto de forma aislada, ignorando su contexto circundante y su orden temporal. Este artículo presenta EvoEmbedding, un novedoso modelo de embedding que genera representaciones evolutivas para la recuperación. Está diseñado para escenarios de contexto largo, donde la información es dinámica, secuencial y requiere un seguimiento continuo del estado. Nuestro diseño es simple: EvoEmbedding mantiene una memoria latente actualizada continuamente a medida que procesa secuencialmente las entradas, y la utiliza junto con el contenido original para generar embeddings evolutivos de manera conjunta. En consecuencia, para una misma consulta, nuestro modelo adapta su representación para recuperar objetivos distintos según el contexto cambiante, yendo más allá de la búsqueda semántica estática. Para dotar al modelo de esta capacidad, construimos EvoTrain-180K, un conjunto de datos diverso para la optimización conjunta de la memoria latente y la recuperación. Además, introducimos una cola de memoria para evitar el colapso de la representación durante la codificación recurrente, junto con técnicas de procesamiento por lotes de segmentos que abordan la gran variabilidad de longitud y aceleran el entrenamiento en 3.8 veces. Experimentos exhaustivos muestran que nuestro modelo no solo supera a especialistas de mayor escala (por ejemplo, Qwen3-Embedding-8B y KaLM-Embedding-Gemma3-12B) en diversos benchmarks de recuperación de contexto largo, sino que también se generaliza bien a tareas descendentes (por ejemplo, personalización) con contextos 10 veces más largos que su ventana de entrenamiento. Notablemente, EvoEmbedding se integra sin problemas en flujos de trabajo agentivos para mejorar el rendimiento. Por ejemplo, un pipeline RAG básico equipado con nuestro modelo supera a sistemas de memoria agentiva dedicados. Página del proyecto: https://clare-nie.github.io/EvoEmbedding.

English

Existing embedding models are inherently static: they encode text segments in isolation, ignoring their surrounding context and temporal order. This paper introduces EvoEmbedding, a novel embedding model that generates evolvable representations for retrieval. It is tailored for long-context scenarios, where information is dynamic, sequential, and requires continuous state tracking. Our design is simple: EvoEmbedding maintains a continuously updated latent memory as it sequentially processes inputs, and uses it alongside the raw content to jointly generate evolvable embeddings. Consequently, for the same query, our model adapts its representation to retrieve distinct targets based on the evolving context, going beyond static semantic search. To equip the model with this capability, we construct EvoTrain-180K, a diverse dataset for the joint optimization of latent memory and retrieval. Furthermore, we introduce a memory queue to prevent representation collapse during recurrent encoding, alongside segment-batching techniques that tackle significant length variance and accelerate training by 3.8times. Extensive experiments show that our model not only outperforms larger-scale specialists (e.g., Qwen3-Embedding-8B and KaLM-Embedding-Gemma3-12B) across a range of long-context retrieval benchmarks, but also generalizes well to downstream tasks (e.g., personalization) with contexts 10times longer than its training window. Notably, EvoEmbedding seamlessly integrates into agentic workflows to boost performance. For instance, a naive RAG pipeline equipped with our model surpasses dedicated agentic memory systems. Project Page: https://clare-nie.github.io/EvoEmbedding.