MoM: Mezclas de Memorias de Documentos Conscientes del Escenario para Sistemas de Generación Aumentada por Recuperación
MoM: Mixtures of Scenario-Aware Document Memories for Retrieval-Augmented Generation Systems
October 16, 2025
Autores: Jihao Zhao, Zhiyuan Ji, Simin Niu, Hanyu Wang, Feiyu Xiong, Zhiyu Li
cs.AI
Resumen
El paradigma tradicional de RAG, que generalmente se enfoca en la comprensión de fragmentos de texto relevantes en respuesta a consultas recibidas, restringe inherentemente tanto la profundidad de la internalización del conocimiento como las capacidades de razonamiento. Para abordar esta limitación, nuestra investigación transforma el procesamiento de texto en RAG de un enfoque pasivo de fragmentación a una comprensión proactiva, definiendo este proceso como la extracción de memoria de documentos con el objetivo de simular los procesos cognitivos humanos durante la lectura. Sobre esta base, proponemos el marco de Mezclas de Memorias de Documentos Conscientes del Escenario (MoM, por sus siglas en inglés), diseñado para manejar eficientemente documentos de múltiples dominios y entrenar modelos de lenguaje pequeños (SLMs) para adquirir la capacidad de explorar y construir memorias de documentos de manera proactiva. El MoM instruye inicialmente a modelos de lenguaje grandes (LLMs) para simular a expertos en la generación de esquemas lógicos de documentos, dirigiendo así la fragmentación estructurada y la extracción de contenido central. Emplea un mecanismo de muestreo multipath y evaluación multiperspectiva, diseñando específicamente métricas integrales que representan la claridad de los fragmentos y la completitud de la extracción para seleccionar las memorias de documentos óptimas. Además, para infundir habilidades de lectura más profundas y similares a las humanas durante el entrenamiento de los SLMs, incorporamos una estrategia de razonamiento inverso, que deduce caminos de pensamiento experto refinados a partir de resultados de alta calidad. Finalmente, aprovechando diversas formas de contenido generadas por MoM, desarrollamos un mecanismo de recuperación de memoria de documentos de tres capas, fundamentado en nuestra prueba teórica desde la perspectiva del modelado probabilístico. Los resultados experimentales extensivos en tres dominios distintos demuestran que el marco MoM no solo resuelve los desafíos de fragmentación de texto en los sistemas RAG existentes, proporcionando a los LLMs memorias de documentos semánticamente completas, sino que también allana el camino para que los SLMs logren un procesamiento de texto inteligente centrado en el ser humano.
English
The traditional RAG paradigm, which typically engages in the comprehension of
relevant text chunks in response to received queries, inherently restricts both
the depth of knowledge internalization and reasoning capabilities. To address
this limitation, our research transforms the text processing in RAG from
passive chunking to proactive understanding, defining this process as document
memory extraction with the objective of simulating human cognitive processes
during reading. Building upon this, we propose the Mixtures of scenario-aware
document Memories (MoM) framework, engineered to efficiently handle documents
from multiple domains and train small language models (SLMs) to acquire the
ability to proactively explore and construct document memories. The MoM
initially instructs large language models (LLMs) to simulate domain experts in
generating document logical outlines, thereby directing structured chunking and
core content extraction. It employs a multi-path sampling and multi-perspective
evaluation mechanism, specifically designing comprehensive metrics that
represent chunk clarity and extraction completeness to select the optimal
document memories. Additionally, to infuse deeper human-like reading abilities
during the training of SLMs, we incorporate a reverse reasoning strategy, which
deduces refined expert thinking paths from high-quality outcomes. Finally,
leveraging diverse forms of content generated by MoM, we develop a three-layer
document memory retrieval mechanism, which is grounded in our theoretical proof
from the perspective of probabilistic modeling. Extensive experimental results
across three distinct domains demonstrate that the MoM framework not only
resolves text chunking challenges in existing RAG systems, providing LLMs with
semantically complete document memories, but also paves the way for SLMs to
achieve human-centric intelligent text processing.