ChatPaper.aiChatPaper

Parallelle Context-van-Experts Decodering voor Retrieval Augmented Generation

Parallel Context-of-Experts Decoding for Retrieval Augmented Generation

January 13, 2026
Auteurs: Giulio Corallo, Paolo Papotti
cs.AI

Samenvatting

Retrieval Augmented Generation staat voor een dilemma: het aaneenschakelen van documenten in een lange prompt maakt redeneren over meerdere documenten mogelijk, maar creëert prefill-knelpunten, terwijl het apart encoderen van document-KV-caches snelheid biedt maar de interactie tussen documenten verbreekt. Wij stellen Parallel Context-of-Experts Decoding (Pced) voor, een trainingsvrij raamwerk dat de aggregatie van bewijsmateriaal verschuift van het aandachtmechanisme naar het decoderen. Pced behandelt opgehaalde documenten als geïsoleerde "experts" en synchroniseert hun voorspellingen via een nieuwe, retrieval-aware contrastieve decodeerregel die expert-logits afweegt tegen de eerdere kennis van het model. Deze aanpak herstelt de mogelijkheid tot redeneren over meerdere documenten zonder een gedeelde aandacht tussen documenten te construeren.
English
Retrieval Augmented Generation faces a trade-off: concatenating documents in a long prompt enables multi-document reasoning but creates prefill bottlenecks, while encoding document KV caches separately offers speed but breaks cross-document interaction. We propose Parallel Context-of-Experts Decoding (Pced), a training-free framework that shifts evidence aggregation from the attention mechanism to the decoding. Pced treats retrieved documents as isolated "experts", synchronizing their predictions via a novel retrieval-aware contrastive decoding rule that weighs expert logits against the model prior. This approach recovers cross-document reasoning capabilities without constructing a shared attention across documents.
PDF192February 8, 2026