LaSER : Internalisation du raisonnement explicite dans l'espace latent pour le retrieval dense
LaSER: Internalizing Explicit Reasoning into Latent Space for Dense Retrieval
March 2, 2026
Auteurs: Jiajie Jin, Yanzhao Zhang, Mingxin Li, Dingkun Long, Pengjun Xie, Yutao Zhu, Zhicheng Dou
cs.AI
Résumé
Les grands modèles de langage (LLM) ont fondamentalement transformé le retrieval dense, faisant évoluer les architectures de base des encodeurs discriminatifs vers des architectures génératives. Cependant, une déconnexion critique persiste : bien que les LLM possèdent de solides capacités de raisonnement, les systèmes de retrieval actuels les utilisent principalement comme des encodeurs statiques, laissant leur potentiel pour le raisonnement complexe inexploité. Pour y remédier, les approches existantes adoptent généralement des pipelines de réécriture puis retrieval pour générer des rationales de type chaîne de pensée (CoT) explicites avant le retrieval. Cependant, cela entraîne une latence prohibitive. Dans cet article, nous proposons LaSER, un nouveau cadre d'auto-distillation qui internalise le raisonnement explicite dans l'espace latent des retrieveurs denses. Fonctionnant sur une architecture LLM partagée, LaSER introduit un mécanisme d'entraînement à double vue : une vue Explicite qui encode explicitement les chemins de raisonnement de référence, et une vue Latente qui effectue une pensée latente implicite. Pour combler le fossé entre ces vues, nous concevons une stratégie d'alignement multi-échelle. Au-delà de l'alignement standard des sorties, nous introduisons un mécanisme d'alignement des trajectoires qui synchronise les états latents intermédiaires du chemin latent avec la progression sémantique des segments de raisonnement explicites. Cela permet au retriever de « penser » silencieusement et efficacement sans génération de texte auto-régressive. Des expériences approfondies sur des benchmarks de raisonnement intensif, en domaine connu et hors domaine, démontrent que LaSER surpasse significativement les meilleures méthodes de référence. De plus, des analyses sur diverses architectures et tailles de modèles valident la robustesse de notre approche, confirmant que notre cadre d'apprentissage unifié est essentiel pour susciter une pensée latente efficace. Notre méthode combine avec succès la profondeur de raisonnement des pipelines CoT explicites avec l'efficacité d'inférence des retrieveurs denses standard.
English
LLMs have fundamentally transformed dense retrieval, upgrading backbones from discriminative encoders to generative architectures. However, a critical disconnect remains: while LLMs possess strong reasoning capabilities, current retrievers predominantly utilize them as static encoders, leaving their potential for complex reasoning unexplored. To address this, existing approaches typically adopt rewrite-then-retrieve pipelines to generate explicit CoT rationales before retrieval. However, this incurs prohibitive latency. In this paper, we propose LaSER, a novel self-distillation framework that internalizes explicit reasoning into the latent space of dense retrievers. Operating on a shared LLM backbone, LaSER introduces a dual-view training mechanism: an Explicit view that explicitly encodes ground-truth reasoning paths, and a Latent view that performs implicit latent thinking. To bridge the gap between these views, we design a multi-grained alignment strategy. Beyond standard output alignment, we introduce a trajectory alignment mechanism that synchronizes the intermediate latent states of the latent path with the semantic progression of the explicit reasoning segments. This allows the retriever to think silently and effectively without autoregressive text generation. Extensive experiments on both in-domain and out-of-domain reasoning-intensive benchmarks demonstrate that LaSER significantly outperforms state-of-the-art baselines. Furthermore, analyses across diverse backbones and model scales validate the robustness of our approach, confirming that our unified learning framework is essential for eliciting effective latent thinking. Our method successfully combines the reasoning depth of explicit CoT pipelines with the inference efficiency of standard dense retrievers.