ChatPaper.aiChatPaper

KV-Embedding : Intégration de texte sans entraînement via un réacheminement interne des paires clé-valeur dans les LLMs à décodeur uniquement

KV-Embedding: Training-free Text Embedding via Internal KV Re-routing in Decoder-only LLMs

January 3, 2026
papers.authors: Yixuan Tang, Yi Yang
cs.AI

papers.abstract

Bien que les LLM constituent des modèles d'embedding puissants, leur application dans des contextes sans entraînement se heurte à deux défis structurels : l'attention causale empêche les premiers tokens d'accéder au contexte suivant, et l'objectif de prédiction du token suivant biaise les représentations vers la génération plutôt que la compression sémantique. Pour résoudre ces limitations, nous proposons KV-Embedding, un cadre qui active le pouvoir de représentation latent des LLM figés. Notre méthode s'appuie sur l'observation que les états clé-valeur (KV) du dernier token à chaque couche codent une vue compressée de la séquence. En réacheminant ces états comme préfixe ajouté, nous permettons à tous les tokens d'accéder au contexte séquentiel en une seule passe avant. Pour garantir une applicabilité indépendante du modèle, nous introduisons une stratégie automatique de sélection de couche basée sur la dimension intrinsèque. Les évaluations sur MTEB avec les modèles Qwen, Mistral et Llama montrent que KV-Embedding surpasse les méthodes de référence sans entraînement jusqu'à 10%, tout en maintenant des performances robustes sur des séquences allant jusqu'à 4 096 tokens. Ces résultats démontrent que la manipulation des états internes offre une alternative efficace à la modification des entrées, et nous espérons que ces travaux encourageront l'exploration des mécanismes internes des LLM pour l'apprentissage de représentations.
English
While LLMs are powerful embedding backbones, their application in training-free settings faces two structural challenges: causal attention restricts early tokens from accessing subsequent context, and the next-token prediction objective biases representations toward generation rather than semantic compression. To address these limitations, we propose KV-Embedding, a framework that activates the latent representation power of frozen LLMs. Our method leverages the observation that the key-value (KV) states of the final token at each layer encode a compressed view of the sequence. By re-routing these states as a prepended prefix, we enable all tokens to access sequence-level context within a single forward pass. To ensure model-agnostic applicability, we introduce an automated layer selection strategy based on intrinsic dimensionality. Evaluations on MTEB across Qwen, Mistral, and Llama backbones show that KV-Embedding outperforms existing training-free baselines by up to 10%, while maintaining robust performance on sequences up to 4,096 tokens. These results demonstrate that internal state manipulation offers an efficient alternative to input modification, and we hope this work encourages further exploration of LLM internals for representation learning.
PDF51January 7, 2026