Ophalen van Binnenuit: Een Intrinsiek Vermogen van Aandachtgebaseerde Modellen

Samenvatting

Retrieval-verrijkte generatie (RAG) beschouwt retrieval en generatie doorgaans als aparte systemen. We vragen ons af of een aandacht-gebaseerde encoder-decoder in plaats daarvan direct uit zijn eigen interne representaties kan ophalen. We introduceren INTRA (INTrinsic Retrieval via Attention), een raamwerk waarbij decoder-aandachtsquery's voorgecodeerde evidentiebrokken scoren die vervolgens direct worden hergebruikt als context voor generatie. Door zijn constructie verenigt INTRA retrieval en generatie, waardoor de typische mismatch tussen retriever en generator in RAG-pijplijnen wordt geëlimineerd. Dit ontwerp amortiseert ook de contextcodering door voorberekende encodertoestanden over queries heen te hergebruiken. Op vraag-antwoordbenchmarks overtreft INTRA sterke, technisch ontworpen retrievalpijplijnen, zowel wat betreft evidentieherinnering (recall) als eind-tot-eind antwoordkwaliteit. Onze resultaten tonen aan dat aandacht-gebaseerde modellen al een retrievalmechanisme bezitten dat kan worden opgeroepen, in plaats van te worden toegevoegd als een externe module.

English

Retrieval-augmented generation (RAG) typically treats retrieval and generation as separate systems. We ask whether an attention-based encoder-decoder can instead retrieve directly from its own internal representations. We introduce INTRA (INTrinsic Retrieval via Attention), a framework where decoder attention queries score pre-encoded evidence chunks that are then directly reused as context for generation. By construction, INTRA unifies retrieval and generation, eliminating the retriever-generator mismatch typical of RAG pipelines. This design also amortizes context encoding by reusing precomputed encoder states across queries. On question-answering benchmarks, INTRA outperforms strong engineered retrieval pipelines on both evidence recall and end-to-end answer quality. Our results demonstrate that attention-based models already possess a retrieval mechanism that can be elicited, rather than added as an external module.