ChatPaper.aiChatPaper

LaSER: Internalizzazione del ragionamento esplicito nello spazio latente per il recupero denso

LaSER: Internalizing Explicit Reasoning into Latent Space for Dense Retrieval

March 2, 2026
Autori: Jiajie Jin, Yanzhao Zhang, Mingxin Li, Dingkun Long, Pengjun Xie, Yutao Zhu, Zhicheng Dou
cs.AI

Abstract

I modelli linguistici di grandi dimensioni (LLM) hanno trasformato radicalmente il retrieval denso, evolvendo gli architetture di base da encoder discriminatori ad architetture generative. Tuttavia, persiste una disconnessione critica: sebbene gli LLM possiedano forti capacità di ragionamento, i sistemi di retrieval attuali li utilizzano prevalentemente come encoder statici, lasciando inesplorato il loro potenziale per il ragionamento complesso. Per affrontare questo problema, gli approcci esistenti adottano tipicamente pipeline di riscrittura-e-recupero per generare ragionamenti espliciti a catena (CoT) prima del retrieval. Tuttavia, questo comporta una latenza proibitiva. In questo articolo, proponiamo LaSER, un innovativo framework di auto-distillazione che internalizza il ragionamento esplicito nello spazio latente dei sistemi di retrieval denso. Operando su un'architettura LLM condivisa, LaSER introduce un meccanismo di addestramento a doppia visuale: una visuale Esplicita che codifica esplicitamente i percorsi di ragionamento veritieri, e una visuale Latente che esegue un pensiero latente implicito. Per colmare il divario tra queste visuali, progettiamo una strategia di allineamento multi-granulare. Oltre al consueto allineamento degli output, introduciamo un meccanismo di allineamento della traiettoria che sincronizza gli stati latenti intermedi del percorso latente con la progressione semantica dei segmenti di ragionamento esplicito. Ciò consente al sistema di retrieval di "pensare" silenziosamente ed efficacemente senza generazione di testo autoregressiva. Esperimenti approfonditi su benchmark intensivi di ragionamento, sia in-dominio che out-of-dominio, dimostrano che LaSER supera significativamente i baseline state-of-the-art. Inoltre, analisi condotte su diverse architetture e scale modellari convalidano la robustezza del nostro approccio, confermando che il nostro framework di apprendimento unificato è essenziale per elicitare un efficace pensiero latente. Il nostro metodo combina con successo la profondità di ragionamento delle pipeline CoT esplicite con l'efficienza inferenziale dei sistemi di retrieval denso standard.
English
LLMs have fundamentally transformed dense retrieval, upgrading backbones from discriminative encoders to generative architectures. However, a critical disconnect remains: while LLMs possess strong reasoning capabilities, current retrievers predominantly utilize them as static encoders, leaving their potential for complex reasoning unexplored. To address this, existing approaches typically adopt rewrite-then-retrieve pipelines to generate explicit CoT rationales before retrieval. However, this incurs prohibitive latency. In this paper, we propose LaSER, a novel self-distillation framework that internalizes explicit reasoning into the latent space of dense retrievers. Operating on a shared LLM backbone, LaSER introduces a dual-view training mechanism: an Explicit view that explicitly encodes ground-truth reasoning paths, and a Latent view that performs implicit latent thinking. To bridge the gap between these views, we design a multi-grained alignment strategy. Beyond standard output alignment, we introduce a trajectory alignment mechanism that synchronizes the intermediate latent states of the latent path with the semantic progression of the explicit reasoning segments. This allows the retriever to think silently and effectively without autoregressive text generation. Extensive experiments on both in-domain and out-of-domain reasoning-intensive benchmarks demonstrate that LaSER significantly outperforms state-of-the-art baselines. Furthermore, analyses across diverse backbones and model scales validate the robustness of our approach, confirming that our unified learning framework is essential for eliciting effective latent thinking. Our method successfully combines the reasoning depth of explicit CoT pipelines with the inference efficiency of standard dense retrievers.
PDF62March 19, 2026