MoM: Смеси сценарий-зависимых документных воспоминаний для систем генерации с расширенным поиском
MoM: Mixtures of Scenario-Aware Document Memories for Retrieval-Augmented Generation Systems
October 16, 2025
Авторы: Jihao Zhao, Zhiyuan Ji, Simin Niu, Hanyu Wang, Feiyu Xiong, Zhiyu Li
cs.AI
Аннотация
Традиционная парадигма RAG, которая обычно занимается осмыслением соответствующих фрагментов текста в ответ на полученные запросы, по своей природе ограничивает как глубину усвоения знаний, так и способности к рассуждению. Чтобы устранить это ограничение, наше исследование преобразует обработку текста в RAG от пассивного фрагментирования к активному пониманию, определяя этот процесс как извлечение документальной памяти с целью моделирования когнитивных процессов человека во время чтения. На основе этого мы предлагаем фреймворк Mixtures of Scenario-aware Document Memories (MoM), разработанный для эффективной работы с документами из нескольких областей и обучения небольших языковых моделей (SLM) способности активно исследовать и конструировать документальную память. MoM сначала инструктирует крупные языковые модели (LLM) моделировать экспертов в области для генерации логических схем документов, тем самым направляя структурированное фрагментирование и извлечение ключевого содержания. Он использует механизм многопутевого сэмплирования и многоперспективной оценки, специально разрабатывая комплексные метрики, которые отражают ясность фрагментов и полноту извлечения, чтобы выбрать оптимальную документальную память. Кроме того, чтобы привить SLM более глубокие способности, подобные человеческому чтению, во время их обучения, мы включаем стратегию обратного рассуждения, которая выводит уточненные пути экспертного мышления из высококачественных результатов. Наконец, используя разнообразные формы контента, генерируемые MoM, мы разрабатываем трехслойный механизм извлечения документальной памяти, который основан на нашем теоретическом доказательстве с точки зрения вероятностного моделирования. Обширные экспериментальные результаты в трех различных областях демонстрируют, что фреймворк MoM не только решает проблемы фрагментирования текста в существующих системах RAG, предоставляя LLM семантически полную документальную память, но также прокладывает путь для SLM к достижению ориентированной на человека интеллектуальной обработки текста.
English
The traditional RAG paradigm, which typically engages in the comprehension of
relevant text chunks in response to received queries, inherently restricts both
the depth of knowledge internalization and reasoning capabilities. To address
this limitation, our research transforms the text processing in RAG from
passive chunking to proactive understanding, defining this process as document
memory extraction with the objective of simulating human cognitive processes
during reading. Building upon this, we propose the Mixtures of scenario-aware
document Memories (MoM) framework, engineered to efficiently handle documents
from multiple domains and train small language models (SLMs) to acquire the
ability to proactively explore and construct document memories. The MoM
initially instructs large language models (LLMs) to simulate domain experts in
generating document logical outlines, thereby directing structured chunking and
core content extraction. It employs a multi-path sampling and multi-perspective
evaluation mechanism, specifically designing comprehensive metrics that
represent chunk clarity and extraction completeness to select the optimal
document memories. Additionally, to infuse deeper human-like reading abilities
during the training of SLMs, we incorporate a reverse reasoning strategy, which
deduces refined expert thinking paths from high-quality outcomes. Finally,
leveraging diverse forms of content generated by MoM, we develop a three-layer
document memory retrieval mechanism, which is grounded in our theoretical proof
from the perspective of probabilistic modeling. Extensive experimental results
across three distinct domains demonstrate that the MoM framework not only
resolves text chunking challenges in existing RAG systems, providing LLMs with
semantically complete document memories, but also paves the way for SLMs to
achieve human-centric intelligent text processing.