Search-R3: Het verenigen van redeneren en het genereren van embeddings in grote taalmmodellen
Search-R3: Unifying Reasoning and Embedding Generation in Large Language Models
October 8, 2025
Auteurs: Yuntao Gui, James Cheng
cs.AI
Samenvatting
Ondanks hun opmerkelijke vermogen om natuurlijke taal te begrijpen, zijn Large Language Models (LLMs) onderbenut gebleven voor retrievalthan. Wij presenteren Search-R3, een nieuw framework dat deze beperking aanpakt door LLMs aan te passen om zoekembeddings te genereren als een direct resultaat van hun redeneerproces. Onze aanpak maakt gebruik van de chain-of-thought-mogelijkheden van LLMs, waardoor ze effectievere embeddings kunnen produceren door stap voor stap complexe semantische analyses uit te voeren. We implementeren dit via drie complementaire mechanismen. (1) Een fase van supervised learning stelt het model in staat om kwalitatief hoogwaardige embeddings te produceren, (2) een reinforcement learning (RL)-methodologie die de generatie van embeddings optimaliseert naast het redeneren, en (3) een gespecialiseerde RL-omgeving die efficiënt omgaat met evoluerende embeddingrepresentaties zonder dat bij elke trainingsiteratie een volledige hercodering van het corpus nodig is. Onze uitgebreide evaluaties op diverse benchmarks tonen aan dat Search-R3 eerdere methoden significant overtreft door de redeneer- en embeddinggeneratieprocessen te verenigen. Deze geïntegreerde post-trainingsaanpak vertegenwoordigt een aanzienlijke vooruitgang in het omgaan met complexe kennisintensieve taken die zowel geavanceerd redeneren als effectieve informatie retrieval vereisen. Projectpagina: https://github.com/ytgui/Search-R3
English
Despite their remarkable natural language understanding capabilities, Large
Language Models (LLMs) have been underutilized for retrieval tasks. We present
Search-R3, a novel framework that addresses this limitation by adapting LLMs to
generate search embeddings as a direct output of their reasoning process. Our
approach exploits LLMs' chain-of-thought capabilities, allowing them to produce
more effective embeddings by reasoning step-by-step through complex semantic
analyses. We implement this through three complementary mechanisms. (1) a
supervised learning stage enables the model's ability to produce quality
embeddings, (2) a reinforcement learning (RL) methodology that optimizes
embedding generation alongside reasoning, and (3) a specialized RL environment
that efficiently handles evolving embedding representations without requiring
complete corpus re-encoding at each training iteration. Our extensive
evaluations on diverse benchmarks demonstrate that Search-R3 significantly
outperforms prior methods by unifying the reasoning and embedding generation
processes. This integrated post-training approach represents a substantial
advancement in handling complex knowledge-intensive tasks that require both
sophisticated reasoning and effective information retrieval. Project page:
https://github.com/ytgui/Search-R3