KV-Embedding: Incorporação de Texto sem Treinamento via Reencaminhamento Interno de KV em LLMs Apenas-decodificador
KV-Embedding: Training-free Text Embedding via Internal KV Re-routing in Decoder-only LLMs
January 3, 2026
Autores: Yixuan Tang, Yi Yang
cs.AI
Resumo
Embora os LLMs sejam poderosos modelos de base para embeddings, sua aplicação em configurações livres de treinamento enfrenta dois desafios estruturais: a atenção causal impede que os tokens iniciais acessem o contexto subsequente, e o objetivo de previsão do próximo token tende a enviesar as representações para a geração em vez da compressão semântica. Para superar essas limitações, propomos o KV-Embedding, uma estrutura que ativa o poder de representação latente de LLMs congelados. Nosso método aproveita a observação de que os estados chave-valor (KV) do token final em cada camada codificam uma visão comprimida da sequência. Ao redirecionar esses estados como um prefixo pré-acoplado, permitimos que todos os tokens acessem o contexto em nível de sequência em um único passo forward. Para garantir aplicabilidade independente do modelo, introduzimos uma estratégia automatizada de seleção de camadas baseada na dimensionalidade intrínseca. As avaliações no benchmark MTEB com os modelos base Qwen, Mistral e Llama mostram que o KV-Embedding supera as linhas de base livres de treinamento existentes em até 10%, mantendo um desempenho robusto em sequências de até 4.096 tokens. Esses resultados demonstram que a manipulação dos estados internos oferece uma alternativa eficiente à modificação da entrada, e esperamos que este trabalho incentive a exploração adicional dos componentes internos dos LLMs para aprendizado de representação.
English
While LLMs are powerful embedding backbones, their application in training-free settings faces two structural challenges: causal attention restricts early tokens from accessing subsequent context, and the next-token prediction objective biases representations toward generation rather than semantic compression. To address these limitations, we propose KV-Embedding, a framework that activates the latent representation power of frozen LLMs. Our method leverages the observation that the key-value (KV) states of the final token at each layer encode a compressed view of the sequence. By re-routing these states as a prepended prefix, we enable all tokens to access sequence-level context within a single forward pass. To ensure model-agnostic applicability, we introduce an automated layer selection strategy based on intrinsic dimensionality. Evaluations on MTEB across Qwen, Mistral, and Llama backbones show that KV-Embedding outperforms existing training-free baselines by up to 10%, while maintaining robust performance on sequences up to 4,096 tokens. These results demonstrate that internal state manipulation offers an efficient alternative to input modification, and we hope this work encourages further exploration of LLM internals for representation learning.