CLaRa: Conectando Recuperação e Geração com Raciocínio Latente Contínuo
CLaRa: Bridging Retrieval and Generation with Continuous Latent Reasoning
November 24, 2025
Autores: Jie He, Richard He Bai, Sinead Williamson, Jeff Z. Pan, Navdeep Jaitly, Yizhe Zhang
cs.AI
Resumo
A geração aumentada por recuperação (RAG) aprimora os grandes modelos de linguagem (LLMs) com conhecimento externo, mas ainda sofre com contextos longos e uma otimização disjunta entre recuperação e geração. Neste trabalho, propomos o CLaRa (Raciocínio Latente Contínuo), uma estrutura unificada que realiza compressão baseada em *embeddings* e otimização conjunta em um espaço contínuo compartilhado. Para obter vetores compactados semanticamente ricos e recuperáveis, introduzimos o SCP, uma estrutura de síntese de dados que preserva chaves, usando supervisão baseada em perguntas e respostas (QA) e paráfrase. O CLaRa então treina o rerranqueador e o gerador de forma *end-to-end* por meio de uma única função de perda de modelagem de linguagem, com gradientes fluindo através de ambos os módulos usando um estimador *top-k* diferenciável. Teoricamente, esta otimização unificada alinha a relevância da recuperação com a qualidade da resposta. Experimentos em múltiplos benchmarks de QA mostram que o CLaRa alcança um estado da arte em desempenho de compressão e rerranqueamento, frequentemente superando as linhas de base ajustadas (*fine-tuned*) baseadas em texto.
English
Retrieval-augmented generation (RAG) enhances large language models (LLMs) with external knowledge but still suffers from long contexts and disjoint retrieval-generation optimization. In this work, we propose CLaRa (Continuous Latent Reasoning), a unified framework that performs embedding-based compression and joint optimization in a shared continuous space. To obtain semantically rich and retrievable compressed vectors, we introduce SCP, a key-preserving data synthesis framework using QA and paraphrase supervision. CLaRa then trains the reranker and generator end-to-end via a single language modeling loss, with gradients flowing through both modules using a differentiable top-k estimator. Theoretically, this unified optimization aligns retrieval relevance with answer quality. Experiments across multiple QA benchmarks show that CLaRa achieves state-of-the-art compression and reranking performance, often surpassing text-based fine-tuned baselines.