CLaRa: 연속 잠재 추론을 통해 검색과 생성을 연결하는 모델
CLaRa: Bridging Retrieval and Generation with Continuous Latent Reasoning
November 24, 2025
저자: Jie He, Richard He Bai, Sinead Williamson, Jeff Z. Pan, Navdeep Jaitly, Yizhe Zhang
cs.AI
초록
검색 증대 생성(RAG)은 외부 지식을 통해 대규모 언어 모델(LLM)을 향상시키지만, 여전히 긴 문맥과 분리된 검색-생성 최적화 문제를 겪습니다. 본 연구에서는 공유된 연속 공간에서 임베딩 기반 압축과 결합 최적화를 수행하는 통합 프레임워크인 CLaRa(연속 잠재 추론)를 제안합니다. 의미적으로 풍부하고 검색 가능한 압축 벡터를 얻기 위해, 우리는 질의응답 및 파라프레이즈 지도를 활용하는 핵심 정보 보존 데이터 합성 프레임워크인 SCP를 도입합니다. CLaRa는 미분 가능한 상위 k 추정기를 통해 두 모듈에 그래디언트가 흐르도록 단일 언어 모델링 손실 함수로 리랭커와 생성기를 종단 간 학습합니다. 이론적으로 이러한 통합 최적화는 검색 관련성과 응답 품질을 일치시킵니다. 다양한 질의응답 벤치마크에서의 실험 결과, CLaRa가 최첨단 압축 및 재순위 성능을 달성하며 텍스트 기반 미세 조정 기준선을 종종 능가하는 것으로 나타났습니다.
English
Retrieval-augmented generation (RAG) enhances large language models (LLMs) with external knowledge but still suffers from long contexts and disjoint retrieval-generation optimization. In this work, we propose CLaRa (Continuous Latent Reasoning), a unified framework that performs embedding-based compression and joint optimization in a shared continuous space. To obtain semantically rich and retrievable compressed vectors, we introduce SCP, a key-preserving data synthesis framework using QA and paraphrase supervision. CLaRa then trains the reranker and generator end-to-end via a single language modeling loss, with gradients flowing through both modules using a differentiable top-k estimator. Theoretically, this unified optimization aligns retrieval relevance with answer quality. Experiments across multiple QA benchmarks show that CLaRa achieves state-of-the-art compression and reranking performance, often surpassing text-based fine-tuned baselines.