MoM:シナリオ対応文書メモリの混合による検索拡張生成システム
MoM: Mixtures of Scenario-Aware Document Memories for Retrieval-Augmented Generation Systems
October 16, 2025
著者: Jihao Zhao, Zhiyuan Ji, Simin Niu, Hanyu Wang, Feiyu Xiong, Zhiyu Li
cs.AI
要旨
従来のRAGパラダイムは、受信したクエリに応じて関連するテキストチャンクの理解を行うことが一般的であり、知識の内在化の深さと推論能力の両方を本質的に制限している。この制限に対処するため、本研究ではRAGにおけるテキスト処理を、受動的なチャンキングから能動的な理解へと転換し、このプロセスを文書メモリ抽出として定義し、読書中の人間の認知プロセスをシミュレートすることを目的とする。これに基づいて、複数のドメインからの文書を効率的に処理し、小型言語モデル(SLMs)が能動的に文書メモリを探索・構築する能力を獲得するためのMixtures of scenario-aware document Memories(MoM)フレームワークを提案する。MoMはまず、大規模言語モデル(LLMs)にドメインエキスパートをシミュレートさせ、文書の論理的なアウトラインを生成し、構造化されたチャンキングとコアコンテンツの抽出を導く。さらに、多経路サンプリングと多視点評価メカニズムを採用し、チャンクの明瞭さと抽出の完全性を表す包括的な指標を設計して、最適な文書メモリを選択する。加えて、SLMsのトレーニング中により深い人間らしい読解能力を注入するため、高品質な結果から洗練されたエキスパートの思考経路を推論する逆推論戦略を組み込む。最後に、MoMによって生成された多様な形式のコンテンツを活用し、確率モデリングの観点からの理論的証明に基づいた3層の文書メモリ検索メカニズムを開発する。3つの異なるドメインにわたる広範な実験結果は、MoMフレームワークが既存のRAGシステムにおけるテキストチャンキングの課題を解決し、LLMsに意味的に完全な文書メモリを提供するだけでなく、SLMsが人間中心のインテリジェントなテキスト処理を実現する道を開くことを示している。
English
The traditional RAG paradigm, which typically engages in the comprehension of
relevant text chunks in response to received queries, inherently restricts both
the depth of knowledge internalization and reasoning capabilities. To address
this limitation, our research transforms the text processing in RAG from
passive chunking to proactive understanding, defining this process as document
memory extraction with the objective of simulating human cognitive processes
during reading. Building upon this, we propose the Mixtures of scenario-aware
document Memories (MoM) framework, engineered to efficiently handle documents
from multiple domains and train small language models (SLMs) to acquire the
ability to proactively explore and construct document memories. The MoM
initially instructs large language models (LLMs) to simulate domain experts in
generating document logical outlines, thereby directing structured chunking and
core content extraction. It employs a multi-path sampling and multi-perspective
evaluation mechanism, specifically designing comprehensive metrics that
represent chunk clarity and extraction completeness to select the optimal
document memories. Additionally, to infuse deeper human-like reading abilities
during the training of SLMs, we incorporate a reverse reasoning strategy, which
deduces refined expert thinking paths from high-quality outcomes. Finally,
leveraging diverse forms of content generated by MoM, we develop a three-layer
document memory retrieval mechanism, which is grounded in our theoretical proof
from the perspective of probabilistic modeling. Extensive experimental results
across three distinct domains demonstrate that the MoM framework not only
resolves text chunking challenges in existing RAG systems, providing LLMs with
semantically complete document memories, but also paves the way for SLMs to
achieve human-centric intelligent text processing.