Decodificação Paralela de Contexto de Especialistas para Geração Aumentada por Recuperação

Resumo

A Geração Aumentada por Recuperação enfrenta um dilema: a concatenação de documentos em um prompt extenso permite o raciocínio multi-documento, mas cria gargalos de preenchimento prévio, enquanto a codificação separada dos caches KV dos documentos oferece velocidade, mas quebra a interação entre documentos. Propomos a Decodificação Paralela do Contexto de Especialistas (Pced), uma estrutura livre de treinamento que desloca a agregação de evidências do mecanismo de atenção para a decodificação. O Pced trata os documentos recuperados como "especialistas" isolados, sincronizando suas previsões por meio de uma nova regra de decodificação contrastiva consciente da recuperação, que pondera os logits dos especialistas em relação ao prior do modelo. Esta abordagem recupera as capacidades de raciocínio entre documentos sem construir uma atenção compartilhada entre os documentos.

English

Retrieval Augmented Generation faces a trade-off: concatenating documents in a long prompt enables multi-document reasoning but creates prefill bottlenecks, while encoding document KV caches separately offers speed but breaks cross-document interaction. We propose Parallel Context-of-Experts Decoding (Pced), a training-free framework that shifts evidence aggregation from the attention mechanism to the decoding. Pced treats retrieved documents as isolated "experts", synchronizing their predictions via a novel retrieval-aware contrastive decoding rule that weighs expert logits against the model prior. This approach recovers cross-document reasoning capabilities without constructing a shared attention across documents.