MoM: Mengsels van Scenario-Aware Documentgeheugens voor Retrieval-Augmented Generatiesystemen
MoM: Mixtures of Scenario-Aware Document Memories for Retrieval-Augmented Generation Systems
October 16, 2025
Auteurs: Jihao Zhao, Zhiyuan Ji, Simin Niu, Hanyu Wang, Feiyu Xiong, Zhiyu Li
cs.AI
Samenvatting
Het traditionele RAG-paradigma, dat doorgaans betrokken is bij het begrijpen van relevante tekstfragmenten als reactie op ontvangen vragen, beperkt inherent zowel de diepte van kennisinternalisatie als de redeneervaardigheden. Om deze beperking aan te pakken, transformeert ons onderzoek de tekstverwerking in RAG van passief chunking naar actief begrijpen, waarbij dit proces wordt gedefinieerd als documentgeheugenextractie met als doel het simuleren van menselijke cognitieve processen tijdens het lezen. Hierop voortbouwend stellen we het Mixtures of scenario-aware document Memories (MoM) framework voor, ontworpen om efficiënt om te gaan met documenten uit meerdere domeinen en om kleine taalmodellen (SLMs) te trainen om de vaardigheid te verwerven om proactief documentgeheugens te verkennen en op te bouwen. Het MoM instrueert eerst grote taalmodellen (LLMs) om domeinexperts na te bootsen bij het genereren van logische documentoverzichten, waardoor gestructureerd chunking en extractie van kerninhoud wordt gestuurd. Het maakt gebruik van een multi-path sampling en multi-perspectief evaluatiemechanisme, waarbij specifiek uitgebreide metrieken worden ontworpen die de duidelijkheid van chunks en de volledigheid van extractie vertegenwoordigen om de optimale documentgeheugens te selecteren. Daarnaast integreren we een omgekeerde redeneerstrategie om diepere, mensachtige leesvaardigheden te infuseren tijdens de training van SLMs, waarbij verfijnde expertdenkpaden worden afgeleid uit hoogwaardige resultaten. Ten slotte, gebruikmakend van diverse vormen van inhoud gegenereerd door MoM, ontwikkelen we een driedelig documentgeheugenretrievalmechanisme, dat is gebaseerd op onze theoretische bewijsvoering vanuit het perspectief van probabilistische modellering. Uitgebreide experimentele resultaten in drie verschillende domeinen tonen aan dat het MoM-framework niet alleen de uitdagingen van tekstchunking in bestaande RAG-systemen oplost, waardoor LLMs worden voorzien van semantisch complete documentgeheugens, maar ook de weg effent voor SLMs om mensgerichte intelligente tekstverwerking te bereiken.
English
The traditional RAG paradigm, which typically engages in the comprehension of
relevant text chunks in response to received queries, inherently restricts both
the depth of knowledge internalization and reasoning capabilities. To address
this limitation, our research transforms the text processing in RAG from
passive chunking to proactive understanding, defining this process as document
memory extraction with the objective of simulating human cognitive processes
during reading. Building upon this, we propose the Mixtures of scenario-aware
document Memories (MoM) framework, engineered to efficiently handle documents
from multiple domains and train small language models (SLMs) to acquire the
ability to proactively explore and construct document memories. The MoM
initially instructs large language models (LLMs) to simulate domain experts in
generating document logical outlines, thereby directing structured chunking and
core content extraction. It employs a multi-path sampling and multi-perspective
evaluation mechanism, specifically designing comprehensive metrics that
represent chunk clarity and extraction completeness to select the optimal
document memories. Additionally, to infuse deeper human-like reading abilities
during the training of SLMs, we incorporate a reverse reasoning strategy, which
deduces refined expert thinking paths from high-quality outcomes. Finally,
leveraging diverse forms of content generated by MoM, we develop a three-layer
document memory retrieval mechanism, which is grounded in our theoretical proof
from the perspective of probabilistic modeling. Extensive experimental results
across three distinct domains demonstrate that the MoM framework not only
resolves text chunking challenges in existing RAG systems, providing LLMs with
semantically complete document memories, but also paves the way for SLMs to
achieve human-centric intelligent text processing.