Search-R3 : Unification du raisonnement et de la génération d'embeddings dans les grands modèles de langage

papers.abstract

Malgré leurs capacités remarquables de compréhension du langage naturel, les modèles de langage de grande taille (LLMs) ont été sous-utilisés pour les tâches de recherche. Nous présentons Search-R3, un cadre novateur qui aborde cette limitation en adaptant les LLMs pour générer des embeddings de recherche comme résultat direct de leur processus de raisonnement. Notre approche exploite les capacités de chaîne de pensée des LLMs, leur permettant de produire des embeddings plus efficaces en raisonnant étape par étape à travers des analyses sémantiques complexes. Nous mettons en œuvre cela grâce à trois mécanismes complémentaires. (1) une étape d'apprentissage supervisé permet au modèle de produire des embeddings de qualité, (2) une méthodologie d'apprentissage par renforcement (RL) qui optimise la génération d'embeddings parallèlement au raisonnement, et (3) un environnement RL spécialisé qui gère efficacement les représentations d'embeddings en évolution sans nécessiter un ré-encodage complet du corpus à chaque itération d'entraînement. Nos évaluations approfondies sur divers benchmarks démontrent que Search-R3 surpasse significativement les méthodes antérieures en unifiant les processus de raisonnement et de génération d'embeddings. Cette approche intégrée post-entraînement représente une avancée substantielle dans la gestion de tâches complexes et intensives en connaissances qui nécessitent à la fois un raisonnement sophistiqué et une récupération d'information efficace. Page du projet : https://github.com/ytgui/Search-R3

English

Despite their remarkable natural language understanding capabilities, Large Language Models (LLMs) have been underutilized for retrieval tasks. We present Search-R3, a novel framework that addresses this limitation by adapting LLMs to generate search embeddings as a direct output of their reasoning process. Our approach exploits LLMs' chain-of-thought capabilities, allowing them to produce more effective embeddings by reasoning step-by-step through complex semantic analyses. We implement this through three complementary mechanisms. (1) a supervised learning stage enables the model's ability to produce quality embeddings, (2) a reinforcement learning (RL) methodology that optimizes embedding generation alongside reasoning, and (3) a specialized RL environment that efficiently handles evolving embedding representations without requiring complete corpus re-encoding at each training iteration. Our extensive evaluations on diverse benchmarks demonstrate that Search-R3 significantly outperforms prior methods by unifying the reasoning and embedding generation processes. This integrated post-training approach represents a substantial advancement in handling complex knowledge-intensive tasks that require both sophisticated reasoning and effective information retrieval. Project page: https://github.com/ytgui/Search-R3

Search-R3 : Unification du raisonnement et de la génération d'embeddings dans les grands modèles de langage

Search-R3: Unifying Reasoning and Embedding Generation in Large Language Models

papers.abstract

Support