Search-R3: Объединение рассуждений и генерации эмбеддингов в больших языковых моделях
Search-R3: Unifying Reasoning and Embedding Generation in Large Language Models
October 8, 2025
Авторы: Yuntao Gui, James Cheng
cs.AI
Аннотация
Несмотря на их выдающиеся способности в понимании естественного языка, крупные языковые модели (LLM) недостаточно используются для задач поиска. Мы представляем Search-R3 — новый фреймворк, который устраняет это ограничение, адаптируя LLM для генерации поисковых эмбеддингов как прямого результата их процесса рассуждений. Наш подход использует способность LLM к цепочке рассуждений (chain-of-thought), позволяя им создавать более эффективные эмбеддинги, шаг за шагом анализируя сложные семантические структуры. Это реализуется через три взаимодополняющих механизма: (1) этап обучения с учителем, который развивает способность модели генерировать качественные эмбеддинги, (2) методология обучения с подкреплением (RL), оптимизирующая генерацию эмбеддингов совместно с рассуждениями, и (3) специализированная среда RL, которая эффективно обрабатывает изменяющиеся представления эмбеддингов без необходимости полного перекодирования корпуса на каждой итерации обучения. Наши обширные оценки на различных бенчмарках показывают, что Search-R3 значительно превосходит предыдущие методы, объединяя процессы рассуждений и генерации эмбеддингов. Этот интегрированный подход пост-обучения представляет собой существенный прогресс в решении сложных задач, требующих как изощрённых рассуждений, так и эффективного поиска информации. Страница проекта: https://github.com/ytgui/Search-R3.
English
Despite their remarkable natural language understanding capabilities, Large
Language Models (LLMs) have been underutilized for retrieval tasks. We present
Search-R3, a novel framework that addresses this limitation by adapting LLMs to
generate search embeddings as a direct output of their reasoning process. Our
approach exploits LLMs' chain-of-thought capabilities, allowing them to produce
more effective embeddings by reasoning step-by-step through complex semantic
analyses. We implement this through three complementary mechanisms. (1) a
supervised learning stage enables the model's ability to produce quality
embeddings, (2) a reinforcement learning (RL) methodology that optimizes
embedding generation alongside reasoning, and (3) a specialized RL environment
that efficiently handles evolving embedding representations without requiring
complete corpus re-encoding at each training iteration. Our extensive
evaluations on diverse benchmarks demonstrate that Search-R3 significantly
outperforms prior methods by unifying the reasoning and embedding generation
processes. This integrated post-training approach represents a substantial
advancement in handling complex knowledge-intensive tasks that require both
sophisticated reasoning and effective information retrieval. Project page:
https://github.com/ytgui/Search-R3