Decodifica Parallela del Contesto degli Esperti per la Generazione Aumentata dal Recupero

Abstract

Il Retrieval Augmented Generation affronta un compromesso: la concatenazione di documenti in un prompt lungo abilita il ragionamento multi-documento ma crea colli di bottiglia nella fase di prefill, mentre la codifica separata delle cache KV dei documenti offre velocità ma interrompe l'interazione cross-documento. Proponiamo il Parallel Context-of-Experts Decoding (Pced), un framework senza addestramento che sposta l'aggregazione delle evidenze dal meccanismo di attenzione al processo di decoding. Pced tratta i documenti recuperati come "esperti" isolati, sincronizzando le loro previsioni tramite una nuova regola di decoding contrastivo retrieval-aware che pondera i logit degli esperti rispetto al prior del modello. Questo approccio recupera le capacità di ragionamento cross-documento senza costruire un'attenzione condivisa tra i documenti.

English

Retrieval Augmented Generation faces a trade-off: concatenating documents in a long prompt enables multi-document reasoning but creates prefill bottlenecks, while encoding document KV caches separately offers speed but breaks cross-document interaction. We propose Parallel Context-of-Experts Decoding (Pced), a training-free framework that shifts evidence aggregation from the attention mechanism to the decoding. Pced treats retrieved documents as isolated "experts", synchronizing their predictions via a novel retrieval-aware contrastive decoding rule that weighs expert logits against the model prior. This approach recovers cross-document reasoning capabilities without constructing a shared attention across documents.

Decodifica Parallela del Contesto degli Esperti per la Generazione Aumentata dal Recupero

Parallel Context-of-Experts Decoding for Retrieval Augmented Generation

Abstract

Support