Parallel Context-of-Experts-Decodierung für retrievalgestützte Textgenerierung
Parallel Context-of-Experts Decoding for Retrieval Augmented Generation
January 13, 2026
papers.authors: Giulio Corallo, Paolo Papotti
cs.AI
papers.abstract
Retrieval Augmented Generation steht vor einem Zielkonflikt: Das Verketten von Dokumenten in einem langen Prompt ermöglicht zwar Multi-Dokumenten-Abgleich, erzeugt jedoch Prefill-Engpässe, während die separate Kodierung von Dokumenten-KV-Caches Geschwindigkeit bietet, aber die inter-dokumentarische Interaktion unterbricht. Wir schlagen Parallel Context-of-Experts Decoding (Pced) vor, ein trainingsfreies Framework, das die Evidenzaggregation vom Aufmerksamkeitsmechanismus auf den Decodierungsprozess verlagert. Pced behandelt abgerufene Dokumente als isolierte "Experten", synchronisiert deren Vorhersagen durch eine neuartige abrufbasierte kontrastive Decodierregel, die Experten-Logits gegen die Modell-Priorität gewichtet. Dieser Ansatz stellt die Fähigkeiten zum Multi-Dokumenten-Abgleich wieder her, ohne eine gemeinsame Aufmerksamkeit über Dokumente hinweg zu konstruieren.
English
Retrieval Augmented Generation faces a trade-off: concatenating documents in a long prompt enables multi-document reasoning but creates prefill bottlenecks, while encoding document KV caches separately offers speed but breaks cross-document interaction. We propose Parallel Context-of-Experts Decoding (Pced), a training-free framework that shifts evidence aggregation from the attention mechanism to the decoding. Pced treats retrieved documents as isolated "experts", synchronizing their predictions via a novel retrieval-aware contrastive decoding rule that weighs expert logits against the model prior. This approach recovers cross-document reasoning capabilities without constructing a shared attention across documents.