검색 증대 생성을 위한 전문가 컨텍스트 병렬 디코딩
Parallel Context-of-Experts Decoding for Retrieval Augmented Generation
January 13, 2026
저자: Giulio Corallo, Paolo Papotti
cs.AI
초록
검색 증강 생성은 딜레마에 직면해 있습니다: 긴 프롬프트에 문서들을 연결하면 다중 문서 추론이 가능하지만 프리필 병목 현상을 일으키고, 반면 문서별 KV 캐시를 별도로 인코딩하면 속도는 개선되지만 문서 간 상호작용이 단절됩니다. 본 연구에서는 증거 집계를 어텐션 메커니즘에서 디코딩 과정으로 전환하는 학습 불필요 프레임워크인 병렬 전문가 컨텍스트 디코딩(Pced)을 제안합니다. Pced는 검색된 문서를 고립된 "전문가"로 간주하고, 전문가 로짓을 모델 사전 확률과 대조하여 가중치를 부여하는 새로운 검색 인식 대조 디코딩 규칙을 통해 이들의 예측을 동기화합니다. 이 접근법은 문서 간 공유 어텐션을 구성하지 않으면서도 다중 문서 추론 능력을 회복합니다.
English
Retrieval Augmented Generation faces a trade-off: concatenating documents in a long prompt enables multi-document reasoning but creates prefill bottlenecks, while encoding document KV caches separately offers speed but breaks cross-document interaction. We propose Parallel Context-of-Experts Decoding (Pced), a training-free framework that shifts evidence aggregation from the attention mechanism to the decoding. Pced treats retrieved documents as isolated "experts", synchronizing their predictions via a novel retrieval-aware contrastive decoding rule that weighs expert logits against the model prior. This approach recovers cross-document reasoning capabilities without constructing a shared attention across documents.