ChatPaper.aiChatPaper

KV-Embedding: Trainingsfreie Texteinbettung durch internes KV-Rerouting in Decoder-only-LLMs

KV-Embedding: Training-free Text Embedding via Internal KV Re-routing in Decoder-only LLMs

January 3, 2026
papers.authors: Yixuan Tang, Yi Yang
cs.AI

papers.abstract

Obwohl LLMs leistungsstarke Embedding-Backbones sind, steht ihre Anwendung in trainingsfreien Settings vor zwei strukturellen Herausforderungen: Kausale Attention verhindert, dass frühe Token auf nachfolgenden Kontext zugreifen können, und das Next-Token-Prediction-Ziel verzerrt die Repräsentationen in Richtung Generierung anstatt semantischer Kompression. Um diese Einschränkungen zu adressieren, schlagen wir KV-Embedding vor, ein Framework, das die latente Repräsentationskraft eingefrorener LLMs aktiviert. Unser Ansatz nutzt die Beobachtung, dass die Key-Value-(KV)-Zustände des letzten Tokens in jeder Schicht eine komprimierte Sicht der Sequenz kodieren. Indem wir diese Zustände als vorangestelltes Prefix umleiten, ermöglichen wir allen Tokens den Zugriff auf sequenzweiten Kontext innerhalb eines einzelnen Forward-Passes. Um eine modellagnostische Anwendbarkeit zu gewährleisten, führen wir eine automatische Schichtselektionsstrategie basierend auf intrinsischer Dimensionalität ein. Evaluationen auf MTEB mit Qwen-, Mistral- und Llama-Backbones zeigen, dass KV-Embedding bestehende trainingsfreie Baselines um bis zu 10 % übertrifft und dabei robuste Leistung bei Sequenzen mit bis zu 4.096 Tokens beibehält. Diese Ergebnisse demonstrieren, dass die Manipulation interner Zustände eine effiziente Alternative zur Eingabemodifikation darstellt, und wir hoffen, dass diese Arbeit weitere Erkundungen von LLM-Interna für Repräsentationslernen anregt.
English
While LLMs are powerful embedding backbones, their application in training-free settings faces two structural challenges: causal attention restricts early tokens from accessing subsequent context, and the next-token prediction objective biases representations toward generation rather than semantic compression. To address these limitations, we propose KV-Embedding, a framework that activates the latent representation power of frozen LLMs. Our method leverages the observation that the key-value (KV) states of the final token at each layer encode a compressed view of the sequence. By re-routing these states as a prepended prefix, we enable all tokens to access sequence-level context within a single forward pass. To ensure model-agnostic applicability, we introduce an automated layer selection strategy based on intrinsic dimensionality. Evaluations on MTEB across Qwen, Mistral, and Llama backbones show that KV-Embedding outperforms existing training-free baselines by up to 10%, while maintaining robust performance on sequences up to 4,096 tokens. These results demonstrate that internal state manipulation offers an efficient alternative to input modification, and we hope this work encourages further exploration of LLM internals for representation learning.
PDF51January 7, 2026