Search-R3: Vereinheitlichung von Schlussfolgerung und Erzeugung von Einbettungen in großen Sprachmodellen
Search-R3: Unifying Reasoning and Embedding Generation in Large Language Models
October 8, 2025
papers.authors: Yuntao Gui, James Cheng
cs.AI
papers.abstract
Trotz ihrer bemerkenswerten Fähigkeiten im Bereich des natürlichen Sprachverständnisses wurden Large Language Models (LLMs) bisher nur unzureichend für Retrieval-Aufgaben genutzt. Wir präsentieren Search-R3, ein neuartiges Framework, das diese Einschränkung adressiert, indem es LLMs anpasst, um Such-Embeddings als direkte Ausgabe ihres Denkprozesses zu generieren. Unser Ansatz nutzt die Chain-of-Thought-Fähigkeiten von LLMs, wodurch sie effektivere Embeddings durch schrittweises Durchdenken komplexer semantischer Analysen erzeugen können. Dies wird durch drei komplementäre Mechanismen umgesetzt. (1) Eine überwachte Lernphase ermöglicht dem Modell die Erzeugung qualitativ hochwertiger Embeddings, (2) eine Reinforcement-Learning (RL)-Methodik, die die Embedding-Generierung gemeinsam mit dem Denkprozess optimiert, und (3) eine spezialisierte RL-Umgebung, die sich effizient mit sich entwickelnden Embedding-Repräsentationen befasst, ohne eine vollständige Neu-Kodierung des Korpus bei jeder Trainingsiteration zu erfordern. Unsere umfangreichen Evaluierungen auf diversen Benchmarks zeigen, dass Search-R3 frühere Methoden deutlich übertrifft, indem es den Denkprozess und die Embedding-Generierung vereint. Dieser integrierte Post-Training-Ansatz stellt einen erheblichen Fortschritt bei der Bewältigung komplexer, wissensintensiver Aufgaben dar, die sowohl anspruchsvolles Denken als auch effektive Informationsbeschaffung erfordern. Projektseite: https://github.com/ytgui/Search-R3
English
Despite their remarkable natural language understanding capabilities, Large
Language Models (LLMs) have been underutilized for retrieval tasks. We present
Search-R3, a novel framework that addresses this limitation by adapting LLMs to
generate search embeddings as a direct output of their reasoning process. Our
approach exploits LLMs' chain-of-thought capabilities, allowing them to produce
more effective embeddings by reasoning step-by-step through complex semantic
analyses. We implement this through three complementary mechanisms. (1) a
supervised learning stage enables the model's ability to produce quality
embeddings, (2) a reinforcement learning (RL) methodology that optimizes
embedding generation alongside reasoning, and (3) a specialized RL environment
that efficiently handles evolving embedding representations without requiring
complete corpus re-encoding at each training iteration. Our extensive
evaluations on diverse benchmarks demonstrate that Search-R3 significantly
outperforms prior methods by unifying the reasoning and embedding generation
processes. This integrated post-training approach represents a substantial
advancement in handling complex knowledge-intensive tasks that require both
sophisticated reasoning and effective information retrieval. Project page:
https://github.com/ytgui/Search-R3