LaSER: Internaliseren van expliciete redenering in latiente ruimte voor dense retrieval
LaSER: Internalizing Explicit Reasoning into Latent Space for Dense Retrieval
March 2, 2026
Auteurs: Jiajie Jin, Yanzhao Zhang, Mingxin Li, Dingkun Long, Pengjun Xie, Yutao Zhu, Zhicheng Dou
cs.AI
Samenvatting
LLM's hebben dichte retrieval fundamenteel getransformeerd door de ruggengraat te upgraden van discriminerende encoders naar generatieve architecturen. Er blijft echter een kritieke kloof bestaan: hoewel LLM's over sterke redeneervermogen beschikken, gebruiken huidige retrievers hen voornamelijk als statische encoders, waardoor hun potentieel voor complex redeneren onbenut blijft. Om dit aan te pakken, nemen bestaande benaderingen typisch *rewrite-then-retrieve* pipelines aan om expliciete CoT-redeneringen te genereren vóór de retrieval. Dit brengt echter onaanvaardbare latentie met zich mee. In dit artikel stellen we LaSER voor, een nieuw zelf-distillatiekader dat expliciet redeneren internaliseert in de latente ruimte van dichte retrievers. Opererend op een gedeelde LLM-ruggegraat introduceert LaSER een dual-view trainingsmechanisme: een Expliciete view die grondwaarheid-redeneerpaden expliciet encodeert, en een Latente view die impliciet latent denken uitvoert. Om de kloof tussen deze views te overbruggen, ontwerpen we een multi-granulaire aligneringsstrategie. Naast standaard output-alignment introduceren we een traject-alignmentmechanisme dat de intermediaire latente toestanden van het latente pad synchroniseert met de semantische progressie van de expliciete redeneersegmenten. Hierdoor kan de retriever stil en effectief denken zonder autoregressieve tekstgeneratie. Uitgebreide experimenten op zowel in-domein als out-of-domein redeneer-intensieve benchmarks tonen aan dat LaSER state-of-the-art baseline-methoden significant overtreft. Verder valideren analyses over diverse ruggegraten en modelschalen de robuustheid van onze aanpak, wat bevestigt dat ons verenigd leerkader essentieel is voor het opwekken van effectief latent denken. Onze methode combineert met succes de redeneerdiepte van expliciete CoT-pipelines met de inferentie-efficiëntie van standaard dichte retrievers.
English
LLMs have fundamentally transformed dense retrieval, upgrading backbones from discriminative encoders to generative architectures. However, a critical disconnect remains: while LLMs possess strong reasoning capabilities, current retrievers predominantly utilize them as static encoders, leaving their potential for complex reasoning unexplored. To address this, existing approaches typically adopt rewrite-then-retrieve pipelines to generate explicit CoT rationales before retrieval. However, this incurs prohibitive latency. In this paper, we propose LaSER, a novel self-distillation framework that internalizes explicit reasoning into the latent space of dense retrievers. Operating on a shared LLM backbone, LaSER introduces a dual-view training mechanism: an Explicit view that explicitly encodes ground-truth reasoning paths, and a Latent view that performs implicit latent thinking. To bridge the gap between these views, we design a multi-grained alignment strategy. Beyond standard output alignment, we introduce a trajectory alignment mechanism that synchronizes the intermediate latent states of the latent path with the semantic progression of the explicit reasoning segments. This allows the retriever to think silently and effectively without autoregressive text generation. Extensive experiments on both in-domain and out-of-domain reasoning-intensive benchmarks demonstrate that LaSER significantly outperforms state-of-the-art baselines. Furthermore, analyses across diverse backbones and model scales validate the robustness of our approach, confirming that our unified learning framework is essential for eliciting effective latent thinking. Our method successfully combines the reasoning depth of explicit CoT pipelines with the inference efficiency of standard dense retrievers.