LaSER: Internalisierung expliziter Schlussfolgerungen in den latenten Raum für dichtes Retrieval

Zusammenfassung

Große Sprachmodelle (LLMs) haben das dichte Retrieval grundlegend transformiert, indem sie die Architektur von diskriminativen Encodern zu generativen Architekturen weiterentwickelt haben. Es bleibt jedoch eine kritische Diskrepanz bestehen: Während LLMs über starke Reasoning-Fähigkeiten verfügen, nutzen aktuelle Retriever sie überwiegend als statische Encoder, wodurch ihr Potenzial für komplexes Reasoning ungenutzt bleibt. Um dies zu adressieren, verwenden bestehende Ansätze typischerweise Rewrite-then-Retrieve-Pipelines, um explizite CoT-Begründungen vor dem Retrieval zu generieren. Dies verursacht jedoch prohibitive Latenzzeiten. In diesem Papier schlagen wir LaSER vor, einen neuartigen Self-Distillation-Framework, der explizites Reasoning in den latenten Raum dichter Retriever internalisiert. LaSER operiert auf einer gemeinsamen LLM-Backbone und führt einen dual-view Trainingsmechanismus ein: eine explizite Sicht, die Ground-Truth-Reasoning-Pfade explizit encodiert, und eine latente Sicht, die implizites latentes Denken durchführt. Um die Lücke zwischen diesen Sichten zu überbrücken, entwerfen wir eine multi-grained Alignment-Strategie. Über die Standard-Output-Ausrichtung hinaus führen wir einen Trajectory-Alignment-Mechanismus ein, der die intermediären latenten Zustände des latenten Pfades mit dem semantischen Fortschritt der expliziten Reasoning-Segmente synchronisiert. Dies ermöglicht es dem Retriever, still und effektiv zu denken, ohne autoregressive Textgenerierung. Umfangreiche Experimente auf sowohl domäneninternen als auch domänenexternen, reasoning-intensiven Benchmarks zeigen, dass LaSER state-of-the-art Baseline-Methoden signifikant übertrifft. Weiterhin validieren Analysen über diverse Backbones und Modellgrößen hinweg die Robustheit unseres Ansatzes und bestätigen, dass unser vereinheitlichtes Lernframework essentiell ist, um effektives latentes Denken zu elicittieren. Unsere Methode kombiniert erfolgreich die Reasoning-Tiefe expliziter CoT-Pipelines mit der Inferenzeffizienz standardmäßiger dichter Retriever.

English

LLMs have fundamentally transformed dense retrieval, upgrading backbones from discriminative encoders to generative architectures. However, a critical disconnect remains: while LLMs possess strong reasoning capabilities, current retrievers predominantly utilize them as static encoders, leaving their potential for complex reasoning unexplored. To address this, existing approaches typically adopt rewrite-then-retrieve pipelines to generate explicit CoT rationales before retrieval. However, this incurs prohibitive latency. In this paper, we propose LaSER, a novel self-distillation framework that internalizes explicit reasoning into the latent space of dense retrievers. Operating on a shared LLM backbone, LaSER introduces a dual-view training mechanism: an Explicit view that explicitly encodes ground-truth reasoning paths, and a Latent view that performs implicit latent thinking. To bridge the gap between these views, we design a multi-grained alignment strategy. Beyond standard output alignment, we introduce a trajectory alignment mechanism that synchronizes the intermediate latent states of the latent path with the semantic progression of the explicit reasoning segments. This allows the retriever to think silently and effectively without autoregressive text generation. Extensive experiments on both in-domain and out-of-domain reasoning-intensive benchmarks demonstrate that LaSER significantly outperforms state-of-the-art baselines. Furthermore, analyses across diverse backbones and model scales validate the robustness of our approach, confirming that our unified learning framework is essential for eliciting effective latent thinking. Our method successfully combines the reasoning depth of explicit CoT pipelines with the inference efficiency of standard dense retrievers.

LaSER: Internalisierung expliziter Schlussfolgerungen in den latenten Raum für dichtes Retrieval

LaSER: Internalizing Explicit Reasoning into Latent Space for Dense Retrieval

Zusammenfassung

Support