ChatPaper.aiChatPaper

Décodage Parallèle en Contexte d'Experts pour la Génération Augmentée par Récupération

Parallel Context-of-Experts Decoding for Retrieval Augmented Generation

January 13, 2026
papers.authors: Giulio Corallo, Paolo Papotti
cs.AI

papers.abstract

La Génération Augmentée par Récupération fait face à un compromis : la concaténation de documents dans un long contexte permet un raisonnement multi-document mais crée des goulots d'étranglement en pré-remplissage, tandis que l'encodage séparé des caches KV des documents offre de la vitesse mais rompt l'interaction transdocument. Nous proposons le Décodage Parallèle des Contexte-Experts (Pced), un cadre sans entraînement qui déplace l'agrégation des preuves du mécanisme d'attention vers le décodage. Pced traite les documents récupérés comme des "experts" isolés, synchronisant leurs prédictions via une nouvelle règle de décodage contrastif sensible à la récupération, qui pondère les logits des experts par rapport à l'a priori du modèle. Cette approche retrouve les capacités de raisonnement transdocument sans construire une attention partagée entre les documents.
English
Retrieval Augmented Generation faces a trade-off: concatenating documents in a long prompt enables multi-document reasoning but creates prefill bottlenecks, while encoding document KV caches separately offers speed but breaks cross-document interaction. We propose Parallel Context-of-Experts Decoding (Pced), a training-free framework that shifts evidence aggregation from the attention mechanism to the decoding. Pced treats retrieved documents as isolated "experts", synchronizing their predictions via a novel retrieval-aware contrastive decoding rule that weighs expert logits against the model prior. This approach recovers cross-document reasoning capabilities without constructing a shared attention across documents.
PDF171January 15, 2026