Search-R3: Unificando Raciocínio e Geração de Embeddings em Modelos de Linguagem de Grande Escala
Search-R3: Unifying Reasoning and Embedding Generation in Large Language Models
October 8, 2025
Autores: Yuntao Gui, James Cheng
cs.AI
Resumo
Apesar de suas notáveis capacidades de compreensão de linguagem natural, os Modelos de Linguagem de Grande Escala (LLMs) têm sido subutilizados para tarefas de recuperação de informações. Apresentamos o Search-R3, uma nova estrutura que aborda essa limitação ao adaptar LLMs para gerar embeddings de busca como uma saída direta de seu processo de raciocínio. Nossa abordagem explora as capacidades de cadeia de pensamento dos LLMs, permitindo que eles produzam embeddings mais eficazes ao raciocinar passo a passo por meio de análises semânticas complexas. Implementamos isso por meio de três mecanismos complementares. (1) uma etapa de aprendizado supervisionado habilita a capacidade do modelo de produzir embeddings de qualidade, (2) uma metodologia de aprendizado por reforço (RL) que otimiza a geração de embeddings juntamente com o raciocínio, e (3) um ambiente de RL especializado que lida de forma eficiente com representações de embeddings em evolução sem exigir a recodificação completa do corpus em cada iteração de treinamento. Nossas extensas avaliações em diversos benchmarks demonstram que o Search-R3 supera significativamente métodos anteriores ao unificar os processos de raciocínio e geração de embeddings. Essa abordagem integrada de pós-treinamento representa um avanço substancial no tratamento de tarefas complexas e intensivas em conhecimento que exigem tanto raciocínio sofisticado quanto recuperação eficaz de informações. Página do projeto: https://github.com/ytgui/Search-R3
English
Despite their remarkable natural language understanding capabilities, Large
Language Models (LLMs) have been underutilized for retrieval tasks. We present
Search-R3, a novel framework that addresses this limitation by adapting LLMs to
generate search embeddings as a direct output of their reasoning process. Our
approach exploits LLMs' chain-of-thought capabilities, allowing them to produce
more effective embeddings by reasoning step-by-step through complex semantic
analyses. We implement this through three complementary mechanisms. (1) a
supervised learning stage enables the model's ability to produce quality
embeddings, (2) a reinforcement learning (RL) methodology that optimizes
embedding generation alongside reasoning, and (3) a specialized RL environment
that efficiently handles evolving embedding representations without requiring
complete corpus re-encoding at each training iteration. Our extensive
evaluations on diverse benchmarks demonstrate that Search-R3 significantly
outperforms prior methods by unifying the reasoning and embedding generation
processes. This integrated post-training approach represents a substantial
advancement in handling complex knowledge-intensive tasks that require both
sophisticated reasoning and effective information retrieval. Project page:
https://github.com/ytgui/Search-R3