専門家の文脈並列デコーディングによる検索拡張生成
Parallel Context-of-Experts Decoding for Retrieval Augmented Generation
January 13, 2026
著者: Giulio Corallo, Paolo Papotti
cs.AI
要旨
検索拡張生成は、トレードオフに直面している。長いプロンプトに文書を連結すると複数文書の推論が可能になるが、プリフィル時のボトルネックが生じる。一方、文書のKVキャッシュを個別にエンコードすると高速化されるが、文書間の相互作用が損なわれる。本研究では、訓練を必要としないフレームワーク「Parallel Context-of-Experts Decoding (Pced)」を提案する。これは証拠の集約を注意機構からデコード処理に移行させるものである。Pcedは検索された文書を独立した「専門家」として扱い、専門家のロジットをモデルの事前分布と比較して重み付けする新しい検索対応型対照的デコード規則により、それらの予測を同期させる。この手法により、文書間で共通の注意機構を構築することなく、文書横断的な推論能力を回復させる。
English
Retrieval Augmented Generation faces a trade-off: concatenating documents in a long prompt enables multi-document reasoning but creates prefill bottlenecks, while encoding document KV caches separately offers speed but breaks cross-document interaction. We propose Parallel Context-of-Experts Decoding (Pced), a training-free framework that shifts evidence aggregation from the attention mechanism to the decoding. Pced treats retrieved documents as isolated "experts", synchronizing their predictions via a novel retrieval-aware contrastive decoding rule that weighs expert logits against the model prior. This approach recovers cross-document reasoning capabilities without constructing a shared attention across documents.