ChatPaper.aiChatPaper

KV-Embedding: Incrustación de Texto sin Entrenamiento mediante Reencaminamiento Interno KV en LLMs de Solo Decodificador

KV-Embedding: Training-free Text Embedding via Internal KV Re-routing in Decoder-only LLMs

January 3, 2026
Autores: Yixuan Tang, Yi Yang
cs.AI

Resumen

Si bien los LLM son poderosos modelos base para embeddings, su aplicación en entornos sin entrenamiento enfrenta dos desafíos estructurales: la atención causal impide que los tokens iniciales accedan al contexto posterior, y el objetivo de predicción del siguiente token sesga las representaciones hacia la generación en lugar de la compresión semántica. Para abordar estas limitaciones, proponemos KV-Embedding, un marco que activa el poder de representación latente de los LLM congelados. Nuestro método aprovecha la observación de que los estados clave-valor (KV) del token final en cada capa codifican una vista comprimida de la secuencia. Al redirigir estos estados como un prefijo antepuesto, permitimos que todos los tokens accedan al contexto a nivel de secuencia en una sola pasada hacia adelante. Para garantizar aplicabilidad independiente del modelo, introducimos una estrategia automatizada de selección de capas basada en dimensionalidad intrínseca. Las evaluaciones en MTEB con modelos base Qwen, Mistral y Llama muestran que KV-Embedding supera a los baselines existentes sin entrenamiento hasta en un 10%, manteniendo un rendimiento robusto en secuencias de hasta 4.096 tokens. Estos resultados demuestran que la manipulación de estados internos ofrece una alternativa eficiente a la modificación de entrada, y esperamos que este trabajo incentive una mayor exploración de los componentes internos de los LLM para el aprendizaje de representaciones.
English
While LLMs are powerful embedding backbones, their application in training-free settings faces two structural challenges: causal attention restricts early tokens from accessing subsequent context, and the next-token prediction objective biases representations toward generation rather than semantic compression. To address these limitations, we propose KV-Embedding, a framework that activates the latent representation power of frozen LLMs. Our method leverages the observation that the key-value (KV) states of the final token at each layer encode a compressed view of the sequence. By re-routing these states as a prepended prefix, we enable all tokens to access sequence-level context within a single forward pass. To ensure model-agnostic applicability, we introduce an automated layer selection strategy based on intrinsic dimensionality. Evaluations on MTEB across Qwen, Mistral, and Llama backbones show that KV-Embedding outperforms existing training-free baselines by up to 10%, while maintaining robust performance on sequences up to 4,096 tokens. These results demonstrate that internal state manipulation offers an efficient alternative to input modification, and we hope this work encourages further exploration of LLM internals for representation learning.
PDF51January 7, 2026