EvoEmbedding : Représentations évolutives pour la recherche en contexte long et la mémoire agentive

Résumé

Les modèles d'embedding existants sont intrinsèquement statiques : ils encodent des segments de texte de manière isolée, ignorant leur contexte environnant et leur ordre temporel. Cet article présente EvoEmbedding, un nouveau modèle d'embedding qui génère des représentations évolutives pour la recherche. Il est spécialement conçu pour les scénarios de long contexte, où l'information est dynamique, séquentielle et nécessite un suivi continu de l'état. Notre conception est simple : EvoEmbedding maintient une mémoire latente continuellement mise à jour à mesure qu'il traite séquentiellement les entrées, et l'utilise conjointement avec le contenu brut pour générer des embeddings évolutifs. Ainsi, pour une même requête, notre modèle adapte sa représentation pour retrouver des cibles distinctes en fonction du contexte évolutif, allant au-delà de la recherche sémantique statique. Pour doter le modèle de cette capacité, nous construisons EvoTrain-180K, un ensemble de données diversifié pour l'optimisation conjointe de la mémoire latente et de la recherche. De plus, nous introduisons une file d'attente mémoire pour prévenir l'effondrement de la représentation lors de l'encodage récurrent, ainsi que des techniques de regroupement par segments qui traitent les grandes variations de longueur et accélèrent l'entraînement par un facteur de 3,8. Des expériences approfondies montrent que notre modèle surpasse non seulement des spécialistes de plus grande échelle (par exemple, Qwen3-Embedding-8B et KaLM-Embedding-Gemma3-12B) sur une série de bancs d'essai de recherche en contexte long, mais se généralise également bien à des tâches en aval (par exemple, la personnalisation) avec des contextes 10 fois plus longs que sa fenêtre d'apprentissage. Notablement, EvoEmbedding s'intègre de manière transparente dans les flux de travail agentiques pour améliorer les performances. Par exemple, un pipeline RAG naïf équipé de notre modèle surpasse les systèmes de mémoire agentiques dédiés. Page du projet : https://clare-nie.github.io/EvoEmbedding.

English

Existing embedding models are inherently static: they encode text segments in isolation, ignoring their surrounding context and temporal order. This paper introduces EvoEmbedding, a novel embedding model that generates evolvable representations for retrieval. It is tailored for long-context scenarios, where information is dynamic, sequential, and requires continuous state tracking. Our design is simple: EvoEmbedding maintains a continuously updated latent memory as it sequentially processes inputs, and uses it alongside the raw content to jointly generate evolvable embeddings. Consequently, for the same query, our model adapts its representation to retrieve distinct targets based on the evolving context, going beyond static semantic search. To equip the model with this capability, we construct EvoTrain-180K, a diverse dataset for the joint optimization of latent memory and retrieval. Furthermore, we introduce a memory queue to prevent representation collapse during recurrent encoding, alongside segment-batching techniques that tackle significant length variance and accelerate training by 3.8times. Extensive experiments show that our model not only outperforms larger-scale specialists (e.g., Qwen3-Embedding-8B and KaLM-Embedding-Gemma3-12B) across a range of long-context retrieval benchmarks, but also generalizes well to downstream tasks (e.g., personalization) with contexts 10times longer than its training window. Notably, EvoEmbedding seamlessly integrates into agentic workflows to boost performance. For instance, a naive RAG pipeline equipped with our model surpasses dedicated agentic memory systems. Project Page: https://clare-nie.github.io/EvoEmbedding.