MoM : Mélanges de mémoires de documents conscients du scénario pour les systèmes de génération augmentée par récupération
MoM: Mixtures of Scenario-Aware Document Memories for Retrieval-Augmented Generation Systems
October 16, 2025
papers.authors: Jihao Zhao, Zhiyuan Ji, Simin Niu, Hanyu Wang, Feiyu Xiong, Zhiyu Li
cs.AI
papers.abstract
Le paradigme traditionnel de RAG, qui consiste généralement à comprendre des segments de texte pertinents en réponse à des requêtes reçues, limite intrinsèquement à la fois la profondeur de l'intériorisation des connaissances et les capacités de raisonnement. Pour pallier cette limitation, notre recherche transforme le traitement du texte dans RAG d'un découpage passif à une compréhension proactive, définissant ce processus comme l'extraction de mémoire documentaire avec pour objectif de simuler les processus cognitifs humains lors de la lecture. Sur cette base, nous proposons le cadre Mixtures of scenario-aware document Memories (MoM), conçu pour gérer efficacement des documents issus de multiples domaines et entraîner des modèles de langage de petite taille (SLMs) à acquérir la capacité d'explorer et de construire de manière proactive des mémoires documentaires. Le MoM commence par instruire des modèles de langage de grande taille (LLMs) pour simuler des experts de domaine dans la génération de plans logiques de documents, orientant ainsi le découpage structuré et l'extraction du contenu central. Il emploie un mécanisme d'échantillonnage multi-chemins et d'évaluation multi-perspectives, concevant spécifiquement des métriques complètes qui représentent la clarté des segments et l'exhaustivité de l'extraction pour sélectionner les mémoires documentaires optimales. De plus, pour insuffler des capacités de lecture plus profondes et similaires à celles des humains lors de l'entraînement des SLMs, nous intégrons une stratégie de raisonnement inverse, qui déduit des chemins de pensée experts raffinés à partir de résultats de haute qualité. Enfin, en exploitant diverses formes de contenu générées par MoM, nous développons un mécanisme de récupération de mémoire documentaire à trois niveaux, qui s'appuie sur notre preuve théorique du point de vue de la modélisation probabiliste. Les résultats expérimentaux approfondis dans trois domaines distincts démontrent que le cadre MoM non seulement résout les défis de découpage de texte dans les systèmes RAG existants, fournissant aux LLMs des mémoires documentaires sémantiquement complètes, mais ouvre également la voie aux SLMs pour atteindre un traitement de texte intelligent centré sur l'humain.
English
The traditional RAG paradigm, which typically engages in the comprehension of
relevant text chunks in response to received queries, inherently restricts both
the depth of knowledge internalization and reasoning capabilities. To address
this limitation, our research transforms the text processing in RAG from
passive chunking to proactive understanding, defining this process as document
memory extraction with the objective of simulating human cognitive processes
during reading. Building upon this, we propose the Mixtures of scenario-aware
document Memories (MoM) framework, engineered to efficiently handle documents
from multiple domains and train small language models (SLMs) to acquire the
ability to proactively explore and construct document memories. The MoM
initially instructs large language models (LLMs) to simulate domain experts in
generating document logical outlines, thereby directing structured chunking and
core content extraction. It employs a multi-path sampling and multi-perspective
evaluation mechanism, specifically designing comprehensive metrics that
represent chunk clarity and extraction completeness to select the optimal
document memories. Additionally, to infuse deeper human-like reading abilities
during the training of SLMs, we incorporate a reverse reasoning strategy, which
deduces refined expert thinking paths from high-quality outcomes. Finally,
leveraging diverse forms of content generated by MoM, we develop a three-layer
document memory retrieval mechanism, which is grounded in our theoretical proof
from the perspective of probabilistic modeling. Extensive experimental results
across three distinct domains demonstrate that the MoM framework not only
resolves text chunking challenges in existing RAG systems, providing LLMs with
semantically complete document memories, but also paves the way for SLMs to
achieve human-centric intelligent text processing.