CLaRa: Объединение поиска и генерации с помощью непрерывного латентного рассуждения
CLaRa: Bridging Retrieval and Generation with Continuous Latent Reasoning
November 24, 2025
Авторы: Jie He, Richard He Bai, Sinead Williamson, Jeff Z. Pan, Navdeep Jaitly, Yizhe Zhang
cs.AI
Аннотация
Генерация с расширением выборки (RAG) расширяет возможности больших языковых моделей (LLM) за счет внешних знаний, но по-прежнему страдает от длинных контекстов и разрозненной оптимизации процессов выборки и генерации. В данной работе мы предлагаем CLaRa (Continuous Latent Reasoning) — унифицированную структуру, которая выполняет сжатие на основе эмбеддингов и совместную оптимизацию в общем непрерывном пространстве. Для получения семантически насыщенных и доступных для выборки сжатых векторов мы представляем SCP — структуру синтеза данных с сохранением ключевой информации, использующую контроль вопросно-ответных пар и парафразов. Затем CLaRa обучает ранжировщик и генератор сквозным образом с помощью единой функции потерь языкового моделирования, где градиенты проходят через оба модуля с использованием дифференцируемой оценки top-k. Теоретически такая унифицированная оптимизация согласует релевантность выборки с качеством ответа. Эксперименты на нескольких вопросно-ответных наборах данных показывают, что CLaRa достигает передовых показателей сжатия и производительности переранжирования, часто превосходя текстовые тонко настроенные базовые модели.
English
Retrieval-augmented generation (RAG) enhances large language models (LLMs) with external knowledge but still suffers from long contexts and disjoint retrieval-generation optimization. In this work, we propose CLaRa (Continuous Latent Reasoning), a unified framework that performs embedding-based compression and joint optimization in a shared continuous space. To obtain semantically rich and retrievable compressed vectors, we introduce SCP, a key-preserving data synthesis framework using QA and paraphrase supervision. CLaRa then trains the reranker and generator end-to-end via a single language modeling loss, with gradients flowing through both modules using a differentiable top-k estimator. Theoretically, this unified optimization aligns retrieval relevance with answer quality. Experiments across multiple QA benchmarks show that CLaRa achieves state-of-the-art compression and reranking performance, often surpassing text-based fine-tuned baselines.