ChatPaper.aiChatPaper

CLaRa: Colmare il Divario tra Recupero e Generazione con il Ragionamento Latente Continuo

CLaRa: Bridging Retrieval and Generation with Continuous Latent Reasoning

November 24, 2025
Autori: Jie He, Richard He Bai, Sinead Williamson, Jeff Z. Pan, Navdeep Jaitly, Yizhe Zhang
cs.AI

Abstract

La generazione aumentata dal recupero (RAG) potenzia i grandi modelli linguistici (LLM) con conoscenze esterne, ma soffre ancora di contesti lunghi e di un'ottimizzazione disgiunta tra recupero e generazione. In questo lavoro, proponiamo CLaRa (Continuous Latent Reasoning), un framework unificato che esegue compressione basata su embedding e ottimizzazione congiunta in uno spazio continuo condiviso. Per ottenere vettori compressi semanticamente ricchi e recuperabili, introduciamo SCP, un framework di sintesi dati che preserva le chiavi, utilizzando supervisione tramite domande-risposte e parafrasi. CLaRa addestra quindi il selettore (reranker) e il generatore end-to-end tramite una singola loss di modellazione linguistica, con gradienti che fluiscono attraverso entrambi i moduli utilizzando uno stimatore top-k differenziabile. Teoricamente, questa ottimizzazione unificata allinea la rilevanza del recupero con la qualità della risposta. Esperimenti su molteplici benchmark di QA dimostrano che CLaRa raggiunge prestazioni all'avanguardia nella compressione e nel reranking, superando spesso baseline fine-tuned basate sul testo.
English
Retrieval-augmented generation (RAG) enhances large language models (LLMs) with external knowledge but still suffers from long contexts and disjoint retrieval-generation optimization. In this work, we propose CLaRa (Continuous Latent Reasoning), a unified framework that performs embedding-based compression and joint optimization in a shared continuous space. To obtain semantically rich and retrievable compressed vectors, we introduce SCP, a key-preserving data synthesis framework using QA and paraphrase supervision. CLaRa then trains the reranker and generator end-to-end via a single language modeling loss, with gradients flowing through both modules using a differentiable top-k estimator. Theoretically, this unified optimization aligns retrieval relevance with answer quality. Experiments across multiple QA benchmarks show that CLaRa achieves state-of-the-art compression and reranking performance, often surpassing text-based fine-tuned baselines.
PDF52December 1, 2025