CLaRa: 連続的潜在推論による検索と生成の架け橋
CLaRa: Bridging Retrieval and Generation with Continuous Latent Reasoning
November 24, 2025
著者: Jie He, Richard He Bai, Sinead Williamson, Jeff Z. Pan, Navdeep Jaitly, Yizhe Zhang
cs.AI
要旨
検索拡張生成(RAG)は大規模言語モデル(LLM)に外部知識を付与するが、長い文脈と検索・生成の最適化の分離という課題が残る。本研究では、埋め込みベースの圧縮と共有連続空間における共同最適化を実現する統一フレームワーク「CLaRa(Continuous Latent Reasoning)」を提案する。意味的に豊かで検索可能な圧縮ベクトルを得るため、QAと言い換えによる監督を用いた鍵保存型データ合成フレームワークSCPを導入する。CLaRaは微分可能top-k推定器を用いて両モジュールをグラデント伝播させ、単一の言語モデリング損失によるリランカーと生成器のend-to-end学習を実現する。理論的には、この統一最適化により検索関連性と回答品質が整合する。複数のQAベンチマーク実験において、CLaRaは最先端の圧縮・リランキング性能を達成し、テキストベースのファインチューニングベースラインをしばしば上回った。
English
Retrieval-augmented generation (RAG) enhances large language models (LLMs) with external knowledge but still suffers from long contexts and disjoint retrieval-generation optimization. In this work, we propose CLaRa (Continuous Latent Reasoning), a unified framework that performs embedding-based compression and joint optimization in a shared continuous space. To obtain semantically rich and retrievable compressed vectors, we introduce SCP, a key-preserving data synthesis framework using QA and paraphrase supervision. CLaRa then trains the reranker and generator end-to-end via a single language modeling loss, with gradients flowing through both modules using a differentiable top-k estimator. Theoretically, this unified optimization aligns retrieval relevance with answer quality. Experiments across multiple QA benchmarks show that CLaRa achieves state-of-the-art compression and reranking performance, often surpassing text-based fine-tuned baselines.