MoM: Miscele di Memorie Documentali Consapevoli dello Scenario per Sistemi di Generazione Aumentata dal Recupero Informazioni
MoM: Mixtures of Scenario-Aware Document Memories for Retrieval-Augmented Generation Systems
October 16, 2025
Autori: Jihao Zhao, Zhiyuan Ji, Simin Niu, Hanyu Wang, Feiyu Xiong, Zhiyu Li
cs.AI
Abstract
Il paradigma tradizionale di RAG (Retrieval-Augmented Generation), che tipicamente si impegna nella comprensione di frammenti di testo rilevanti in risposta alle query ricevute, limita intrinsecamente sia la profondità dell'interiorizzazione della conoscenza che le capacità di ragionamento. Per affrontare questa limitazione, la nostra ricerca trasforma l'elaborazione del testo in RAG da un'operazione passiva di frammentazione a una comprensione proattiva, definendo questo processo come estrazione della memoria documentaria con l'obiettivo di simulare i processi cognitivi umani durante la lettura. Basandoci su questo, proponiamo il framework Mixtures of scenario-aware document Memories (MoM), progettato per gestire in modo efficiente documenti provenienti da più domini e addestrare piccoli modelli linguistici (SLM) per acquisire la capacità di esplorare e costruire proattivamente memorie documentarie. Il MoM inizialmente istruisce i grandi modelli linguistici (LLM) a simulare esperti di dominio nella generazione di schemi logici documentari, guidando così la frammentazione strutturata e l'estrazione del contenuto principale. Utilizza un meccanismo di campionamento multipercorso e valutazione multiprospettica, progettando specificamente metriche complete che rappresentano la chiarezza dei frammenti e la completezza dell'estrazione per selezionare le memorie documentarie ottimali. Inoltre, per infondere capacità di lettura più profonde e simili a quelle umane durante l'addestramento degli SLM, incorporiamo una strategia di ragionamento inverso, che deduce percorsi di pensiero esperti raffinati da risultati di alta qualità. Infine, sfruttando le diverse forme di contenuto generate da MoM, sviluppiamo un meccanismo di recupero della memoria documentaria a tre livelli, basato sulla nostra dimostrazione teorica dal punto di vista della modellazione probabilistica. I risultati sperimentali estesi in tre domini distinti dimostrano che il framework MoM non solo risolve le sfide della frammentazione del testo nei sistemi RAG esistenti, fornendo agli LLM memorie documentarie semanticamente complete, ma apre anche la strada agli SLM per raggiungere un'elaborazione del testo intelligente e centrata sull'uomo.
English
The traditional RAG paradigm, which typically engages in the comprehension of
relevant text chunks in response to received queries, inherently restricts both
the depth of knowledge internalization and reasoning capabilities. To address
this limitation, our research transforms the text processing in RAG from
passive chunking to proactive understanding, defining this process as document
memory extraction with the objective of simulating human cognitive processes
during reading. Building upon this, we propose the Mixtures of scenario-aware
document Memories (MoM) framework, engineered to efficiently handle documents
from multiple domains and train small language models (SLMs) to acquire the
ability to proactively explore and construct document memories. The MoM
initially instructs large language models (LLMs) to simulate domain experts in
generating document logical outlines, thereby directing structured chunking and
core content extraction. It employs a multi-path sampling and multi-perspective
evaluation mechanism, specifically designing comprehensive metrics that
represent chunk clarity and extraction completeness to select the optimal
document memories. Additionally, to infuse deeper human-like reading abilities
during the training of SLMs, we incorporate a reverse reasoning strategy, which
deduces refined expert thinking paths from high-quality outcomes. Finally,
leveraging diverse forms of content generated by MoM, we develop a three-layer
document memory retrieval mechanism, which is grounded in our theoretical proof
from the perspective of probabilistic modeling. Extensive experimental results
across three distinct domains demonstrate that the MoM framework not only
resolves text chunking challenges in existing RAG systems, providing LLMs with
semantically complete document memories, but also paves the way for SLMs to
achieve human-centric intelligent text processing.