Recuperação Interna: Uma Capacidade Intrínseca de Modelos Baseados em Atenção

Resumo

A geração aumentada por recuperação (RAG) normalmente trata recuperação e geração como sistemas separados. Investigamos se um codificador-decodificador baseado em atenção pode, em vez disso, recuperar diretamente de suas próprias representações internas. Apresentamos o INTRA (Recuperação INTrínseca via Atenção), uma estrutura onde consultas de atenção do decodificador pontuam fragmentos de evidência pré-codificados que são então reutilizados diretamente como contexto para a geração. Por construção, o INTRA unifica recuperação e geração, eliminando a incompatibilidade entre recuperador e gerador típica de pipelines RAG. Esse design também amortiza a codificação de contexto ao reutilizar estados do codificador pré-computados entre consultas. Em benchmarks de resposta a perguntas, o INTRA supera pipelines de recuperação fortemente projetados tanto na recuperação de evidências quanto na qualidade final das respostas de ponta a ponta. Nossos resultados demonstram que modelos baseados em atenção já possuem um mecanismo de recuperação que pode ser suscitado, em vez de adicionado como um módulo externo.

English

Retrieval-augmented generation (RAG) typically treats retrieval and generation as separate systems. We ask whether an attention-based encoder-decoder can instead retrieve directly from its own internal representations. We introduce INTRA (INTrinsic Retrieval via Attention), a framework where decoder attention queries score pre-encoded evidence chunks that are then directly reused as context for generation. By construction, INTRA unifies retrieval and generation, eliminating the retriever-generator mismatch typical of RAG pipelines. This design also amortizes context encoding by reusing precomputed encoder states across queries. On question-answering benchmarks, INTRA outperforms strong engineered retrieval pipelines on both evidence recall and end-to-end answer quality. Our results demonstrate that attention-based models already possess a retrieval mechanism that can be elicited, rather than added as an external module.