LaSER: Internalização do Raciocínio Explícito no Espaço Latente para Recuperação Densiva
LaSER: Internalizing Explicit Reasoning into Latent Space for Dense Retrieval
March 2, 2026
Autores: Jiajie Jin, Yanzhao Zhang, Mingxin Li, Dingkun Long, Pengjun Xie, Yutao Zhu, Zhicheng Dou
cs.AI
Resumo
Os LLMs transformaram fundamentalmente a recuperação densa, atualizando os modelos de base de codificadores discriminativos para arquiteturas generativas. No entanto, uma desconexão crítica permanece: embora os LLMs possuam fortes capacidades de raciocínio, os recuperadores atuais utilizam-nos predominantemente como codificadores estáticos, deixando o seu potencial para raciocínio complexo inexplorado. Para resolver isto, as abordagens existentes normalmente adotam pipelines de reescrita-e-recuperação para gerar racionalidades de Cadeia de Pensamento (CoT) explícitas antes da recuperação. No entanto, isto incorre em latência proibitiva. Neste artigo, propomos o LaSER, uma nova estrutura de auto-distilação que internaliza o raciocínio explícito no espaço latente dos recuperadores densos. Operando numa arquitetura de LLM partilhada, o LaSER introduz um mecanismo de treino de dupla perspetiva: uma perspetiva Explícita que codifica explicitamente os percursos de raciocínio fundamentais (ground-truth), e uma perspetiva Latente que realiza pensamento implícito latente. Para colmatar o fosso entre estas perspetivas, concebemos uma estratégia de alinhamento multi-granular. Para além do alinhamento padrão de saída, introduzimos um mecanismo de alinhamento de trajetória que sincroniza os estados latentes intermédios do percurso latente com a progressão semântica dos segmentos de raciocínio explícito. Isto permite ao recuperador pensar de forma silenciosa e eficaz sem geração de texto autorregressiva. Experiências extensas em benchmarks de domínio interno e externo intensivos em raciocínio demonstram que o LaSER supera significativamente as linhas de base state-of-the-art. Além disso, análises em diversas arquiteturas e escalas de modelo validam a robustez da nossa abordagem, confirmando que a nossa estrutura de aprendizagem unificada é essencial para eliciar um pensamento latente eficaz. O nosso método combina com sucesso a profundidade de raciocínio dos pipelines de CoT explícitos com a eficiência inferencial dos recuperadores densos padrão.
English
LLMs have fundamentally transformed dense retrieval, upgrading backbones from discriminative encoders to generative architectures. However, a critical disconnect remains: while LLMs possess strong reasoning capabilities, current retrievers predominantly utilize them as static encoders, leaving their potential for complex reasoning unexplored. To address this, existing approaches typically adopt rewrite-then-retrieve pipelines to generate explicit CoT rationales before retrieval. However, this incurs prohibitive latency. In this paper, we propose LaSER, a novel self-distillation framework that internalizes explicit reasoning into the latent space of dense retrievers. Operating on a shared LLM backbone, LaSER introduces a dual-view training mechanism: an Explicit view that explicitly encodes ground-truth reasoning paths, and a Latent view that performs implicit latent thinking. To bridge the gap between these views, we design a multi-grained alignment strategy. Beyond standard output alignment, we introduce a trajectory alignment mechanism that synchronizes the intermediate latent states of the latent path with the semantic progression of the explicit reasoning segments. This allows the retriever to think silently and effectively without autoregressive text generation. Extensive experiments on both in-domain and out-of-domain reasoning-intensive benchmarks demonstrate that LaSER significantly outperforms state-of-the-art baselines. Furthermore, analyses across diverse backbones and model scales validate the robustness of our approach, confirming that our unified learning framework is essential for eliciting effective latent thinking. Our method successfully combines the reasoning depth of explicit CoT pipelines with the inference efficiency of standard dense retrievers.