Search-R3 : Unification du raisonnement et de la génération d'embeddings dans les grands modèles de langage
Search-R3: Unifying Reasoning and Embedding Generation in Large Language Models
October 8, 2025
papers.authors: Yuntao Gui, James Cheng
cs.AI
papers.abstract
Malgré leurs capacités remarquables de compréhension du langage naturel, les modèles de langage de grande taille (LLMs) ont été sous-utilisés pour les tâches de recherche. Nous présentons Search-R3, un cadre novateur qui aborde cette limitation en adaptant les LLMs pour générer des embeddings de recherche comme résultat direct de leur processus de raisonnement. Notre approche exploite les capacités de chaîne de pensée des LLMs, leur permettant de produire des embeddings plus efficaces en raisonnant étape par étape à travers des analyses sémantiques complexes. Nous mettons en œuvre cela grâce à trois mécanismes complémentaires. (1) une étape d'apprentissage supervisé permet au modèle de produire des embeddings de qualité, (2) une méthodologie d'apprentissage par renforcement (RL) qui optimise la génération d'embeddings parallèlement au raisonnement, et (3) un environnement RL spécialisé qui gère efficacement les représentations d'embeddings en évolution sans nécessiter un ré-encodage complet du corpus à chaque itération d'entraînement. Nos évaluations approfondies sur divers benchmarks démontrent que Search-R3 surpasse significativement les méthodes antérieures en unifiant les processus de raisonnement et de génération d'embeddings. Cette approche intégrée post-entraînement représente une avancée substantielle dans la gestion de tâches complexes et intensives en connaissances qui nécessitent à la fois un raisonnement sophistiqué et une récupération d'information efficace. Page du projet : https://github.com/ytgui/Search-R3
English
Despite their remarkable natural language understanding capabilities, Large
Language Models (LLMs) have been underutilized for retrieval tasks. We present
Search-R3, a novel framework that addresses this limitation by adapting LLMs to
generate search embeddings as a direct output of their reasoning process. Our
approach exploits LLMs' chain-of-thought capabilities, allowing them to produce
more effective embeddings by reasoning step-by-step through complex semantic
analyses. We implement this through three complementary mechanisms. (1) a
supervised learning stage enables the model's ability to produce quality
embeddings, (2) a reinforcement learning (RL) methodology that optimizes
embedding generation alongside reasoning, and (3) a specialized RL environment
that efficiently handles evolving embedding representations without requiring
complete corpus re-encoding at each training iteration. Our extensive
evaluations on diverse benchmarks demonstrate that Search-R3 significantly
outperforms prior methods by unifying the reasoning and embedding generation
processes. This integrated post-training approach represents a substantial
advancement in handling complex knowledge-intensive tasks that require both
sophisticated reasoning and effective information retrieval. Project page:
https://github.com/ytgui/Search-R3