MoM: Gemische szenario-spezifischer Dokumentenspeicher für retrieval-augmentierte Generierungssysteme
MoM: Mixtures of Scenario-Aware Document Memories for Retrieval-Augmented Generation Systems
October 16, 2025
papers.authors: Jihao Zhao, Zhiyuan Ji, Simin Niu, Hanyu Wang, Feiyu Xiong, Zhiyu Li
cs.AI
papers.abstract
Das traditionelle RAG-Paradigma, das typischerweise das Verständnis relevanter Textabschnitte als Reaktion auf empfangene Anfragen einbezieht, beschränkt sowohl die Tiefe der Wissensverinnerlichung als auch die Fähigkeiten zur logischen Schlussfolgerung. Um diese Einschränkung zu überwinden, transformiert unsere Forschung die Textverarbeitung in RAG von passiver Segmentierung zu aktivem Verständnis und definiert diesen Prozess als Extraktion von Dokumentgedächtnis mit dem Ziel, menschliche kognitive Prozesse während des Lesens zu simulieren. Darauf aufbauend schlagen wir das Framework „Mixtures of scenario-aware document Memories“ (MoM) vor, das entwickelt wurde, um Dokumente aus mehreren Domänen effizient zu verarbeiten und kleine Sprachmodelle (SLMs) so zu trainieren, dass sie die Fähigkeit erwerben, Dokumentgedächtnisse aktiv zu erkunden und zu konstruieren. Das MoM-Framework weist zunächst große Sprachmodelle (LLMs) an, Domänenexperten bei der Erstellung logischer Dokumentgliederungen zu simulieren, wodurch eine strukturierte Segmentierung und Extraktion von Kerninhalten geleitet wird. Es verwendet einen Mehrpfad-Sampling- und Multiperspektiven-Bewertungsmechanismus, der speziell umfassende Metriken entwirft, die die Klarheit der Abschnitte und die Vollständigkeit der Extraktion repräsentieren, um die optimalen Dokumentgedächtnisse auszuwählen. Zusätzlich integrieren wir eine umgekehrte Schlussfolgerungsstrategie, um während des Trainings von SLMs tiefere, menschenähnliche Lesefähigkeiten zu fördern, die verfeinerte Experten-Denkpfade aus hochwertigen Ergebnissen ableitet. Schließlich entwickeln wir unter Nutzung der vielfältigen Inhalte, die von MoM generiert werden, einen dreischichtigen Dokumentgedächtnis-Retrieval-Mechanismus, der auf unserem theoretischen Beweis aus der Perspektive der probabilistischen Modellierung basiert. Umfangreiche experimentelle Ergebnisse in drei verschiedenen Domänen zeigen, dass das MoM-Framework nicht nur die Herausforderungen der Textsegmentierung in bestehenden RAG-Systemen löst und LLMs mit semantisch vollständigen Dokumentgedächtnissen versorgt, sondern auch den Weg für SLMs ebnet, um menschenzentrierte intelligente Textverarbeitung zu erreichen.
English
The traditional RAG paradigm, which typically engages in the comprehension of
relevant text chunks in response to received queries, inherently restricts both
the depth of knowledge internalization and reasoning capabilities. To address
this limitation, our research transforms the text processing in RAG from
passive chunking to proactive understanding, defining this process as document
memory extraction with the objective of simulating human cognitive processes
during reading. Building upon this, we propose the Mixtures of scenario-aware
document Memories (MoM) framework, engineered to efficiently handle documents
from multiple domains and train small language models (SLMs) to acquire the
ability to proactively explore and construct document memories. The MoM
initially instructs large language models (LLMs) to simulate domain experts in
generating document logical outlines, thereby directing structured chunking and
core content extraction. It employs a multi-path sampling and multi-perspective
evaluation mechanism, specifically designing comprehensive metrics that
represent chunk clarity and extraction completeness to select the optimal
document memories. Additionally, to infuse deeper human-like reading abilities
during the training of SLMs, we incorporate a reverse reasoning strategy, which
deduces refined expert thinking paths from high-quality outcomes. Finally,
leveraging diverse forms of content generated by MoM, we develop a three-layer
document memory retrieval mechanism, which is grounded in our theoretical proof
from the perspective of probabilistic modeling. Extensive experimental results
across three distinct domains demonstrate that the MoM framework not only
resolves text chunking challenges in existing RAG systems, providing LLMs with
semantically complete document memories, but also paves the way for SLMs to
achieve human-centric intelligent text processing.