ChatPaper.aiChatPaper

Search-R3: Unificación del Razonamiento y la Generación de Incrustaciones en Modelos de Lenguaje de Gran Escala

Search-R3: Unifying Reasoning and Embedding Generation in Large Language Models

October 8, 2025
Autores: Yuntao Gui, James Cheng
cs.AI

Resumen

A pesar de sus notables capacidades de comprensión del lenguaje natural, los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han sido subutilizados para tareas de recuperación de información. Presentamos Search-R3, un marco novedoso que aborda esta limitación al adaptar los LLMs para generar incrustaciones de búsqueda como una salida directa de su proceso de razonamiento. Nuestro enfoque aprovecha las capacidades de cadena de pensamiento de los LLMs, permitiéndoles producir incrustaciones más efectivas al razonar paso a paso a través de análisis semánticos complejos. Implementamos esto mediante tres mecanismos complementarios. (1) una etapa de aprendizaje supervisado que habilita la capacidad del modelo para producir incrustaciones de calidad, (2) una metodología de aprendizaje por refuerzo (RL, por sus siglas en inglés) que optimiza la generación de incrustaciones junto con el razonamiento, y (3) un entorno especializado de RL que maneja eficientemente representaciones de incrustaciones en evolución sin requerir una recodificación completa del corpus en cada iteración de entrenamiento. Nuestras evaluaciones exhaustivas en diversos puntos de referencia demuestran que Search-R3 supera significativamente a métodos anteriores al unificar los procesos de razonamiento y generación de incrustaciones. Este enfoque integrado de posentrenamiento representa un avance sustancial en el manejo de tareas intensivas en conocimiento que requieren tanto un razonamiento sofisticado como una recuperación de información efectiva. Página del proyecto: https://github.com/ytgui/Search-R3.
English
Despite their remarkable natural language understanding capabilities, Large Language Models (LLMs) have been underutilized for retrieval tasks. We present Search-R3, a novel framework that addresses this limitation by adapting LLMs to generate search embeddings as a direct output of their reasoning process. Our approach exploits LLMs' chain-of-thought capabilities, allowing them to produce more effective embeddings by reasoning step-by-step through complex semantic analyses. We implement this through three complementary mechanisms. (1) a supervised learning stage enables the model's ability to produce quality embeddings, (2) a reinforcement learning (RL) methodology that optimizes embedding generation alongside reasoning, and (3) a specialized RL environment that efficiently handles evolving embedding representations without requiring complete corpus re-encoding at each training iteration. Our extensive evaluations on diverse benchmarks demonstrate that Search-R3 significantly outperforms prior methods by unifying the reasoning and embedding generation processes. This integrated post-training approach represents a substantial advancement in handling complex knowledge-intensive tasks that require both sophisticated reasoning and effective information retrieval. Project page: https://github.com/ytgui/Search-R3
PDF22October 10, 2025