Decodificación Paralela de Contexto de Expertos para Generación Aumentada por Recuperación
Parallel Context-of-Experts Decoding for Retrieval Augmented Generation
January 13, 2026
Autores: Giulio Corallo, Paolo Papotti
cs.AI
Resumen
La Generación Aumentada por Recuperación enfrenta una disyuntiva: concatenar documentos en un *prompt* largo permite el razonamiento multdocumento pero crea cuellos de botella en el prellenado, mientras que codificar por separado las cachés KV de los documentos ofrece velocidad pero rompe la interacción entre documentos. Proponemos Decodificación Paralela de Contexto de Expertos (Pced), un marco libre de entrenamiento que desplaza la agregación de evidencia del mecanismo de atención a la decodificación. Pced trata los documentos recuperados como "expertos" aislados, sincronizando sus predicciones mediante una nueva regla de decodificación contrastiva consciente de la recuperación que pondera los logits de los expertos frente al previo del modelo. Este enfoque recupera las capacidades de razonamiento entre documentos sin construir una atención compartida entre ellos.
English
Retrieval Augmented Generation faces a trade-off: concatenating documents in a long prompt enables multi-document reasoning but creates prefill bottlenecks, while encoding document KV caches separately offers speed but breaks cross-document interaction. We propose Parallel Context-of-Experts Decoding (Pced), a training-free framework that shifts evidence aggregation from the attention mechanism to the decoding. Pced treats retrieved documents as isolated "experts", synchronizing their predictions via a novel retrieval-aware contrastive decoding rule that weighs expert logits against the model prior. This approach recovers cross-document reasoning capabilities without constructing a shared attention across documents.