ChatPaper.aiChatPaper

LaSER: Internalización del razonamiento explícito en el espacio latente para la recuperación densa

LaSER: Internalizing Explicit Reasoning into Latent Space for Dense Retrieval

March 2, 2026
Autores: Jiajie Jin, Yanzhao Zhang, Mingxin Li, Dingkun Long, Pengjun Xie, Yutao Zhu, Zhicheng Dou
cs.AI

Resumen

Los LLM han transformado fundamentalmente la recuperación densa, actualizando sus arquitecturas base de codificadores discriminativos a arquitecturas generativas. Sin embargo, persiste una desconexión crítica: aunque los LLM poseen fuertes capacidades de razonamiento, los recuperadores actuales los utilizan predominantemente como codificadores estáticos, dejando sin explorar su potencial para el razonamiento complejo. Para abordar esto, los enfoques existentes suelen adoptar pipelines de reescritura-y-recuperación para generar razonamientos CoT explícitos antes de la recuperación. Sin embargo, esto incurre en una latencia prohibitiva. En este artículo, proponemos LaSER, un novedoso marco de auto-destilación que internaliza el razonamiento explícito en el espacio latente de los recuperadores densos. Operando sobre una arquitectura LLM compartida, LaSER introduce un mecanismo de entrenamiento de doble vista: una vista Explícita que codifica explícitamente las trayectorias de razonamiento verdaderas, y una vista Latente que realiza un pensamiento latente implícito. Para cerrar la brecha entre estas vistas, diseñamos una estrategia de alineación multi-grano. Más allá de la alineación estándar de salidas, introducimos un mecanismo de alineación de trayectoria que sincroniza los estados latentes intermedios de la ruta latente con la progresión semántica de los segmentos de razonamiento explícito. Esto permite al recuperador pensar en silencio y efectivamente sin generación de texto autoregresiva. Experimentos exhaustivos en benchmarks intensivos de razonamiento, tanto dentro como fuera de dominio, demuestran que LaSER supera significativamente a los baselines state-of-the-art. Además, los análisis en diversas arquitecturas base y escalas de modelo validan la robustez de nuestro enfoque, confirmando que nuestro marco de aprendizaje unificado es esencial para elicitar un pensamiento latente efectivo. Nuestro método combina exitosamente la profundidad de razonamiento de los pipelines CoT explícitos con la eficiencia inferencial de los recuperadores densos estándar.
English
LLMs have fundamentally transformed dense retrieval, upgrading backbones from discriminative encoders to generative architectures. However, a critical disconnect remains: while LLMs possess strong reasoning capabilities, current retrievers predominantly utilize them as static encoders, leaving their potential for complex reasoning unexplored. To address this, existing approaches typically adopt rewrite-then-retrieve pipelines to generate explicit CoT rationales before retrieval. However, this incurs prohibitive latency. In this paper, we propose LaSER, a novel self-distillation framework that internalizes explicit reasoning into the latent space of dense retrievers. Operating on a shared LLM backbone, LaSER introduces a dual-view training mechanism: an Explicit view that explicitly encodes ground-truth reasoning paths, and a Latent view that performs implicit latent thinking. To bridge the gap between these views, we design a multi-grained alignment strategy. Beyond standard output alignment, we introduce a trajectory alignment mechanism that synchronizes the intermediate latent states of the latent path with the semantic progression of the explicit reasoning segments. This allows the retriever to think silently and effectively without autoregressive text generation. Extensive experiments on both in-domain and out-of-domain reasoning-intensive benchmarks demonstrate that LaSER significantly outperforms state-of-the-art baselines. Furthermore, analyses across diverse backbones and model scales validate the robustness of our approach, confirming that our unified learning framework is essential for eliciting effective latent thinking. Our method successfully combines the reasoning depth of explicit CoT pipelines with the inference efficiency of standard dense retrievers.
PDF31March 4, 2026