MoM: Misturas de Memórias de Documentos Conscientes do Cenário para Sistemas de Geração Aumentada por Recuperação
MoM: Mixtures of Scenario-Aware Document Memories for Retrieval-Augmented Generation Systems
October 16, 2025
Autores: Jihao Zhao, Zhiyuan Ji, Simin Niu, Hanyu Wang, Feiyu Xiong, Zhiyu Li
cs.AI
Resumo
O paradigma tradicional de RAG (Retrieval-Augmented Generation), que normalmente envolve a compreensão de trechos de texto relevantes em resposta a consultas recebidas, restringe inerentemente tanto a profundidade da internalização do conhecimento quanto as capacidades de raciocínio. Para abordar essa limitação, nossa pesquisa transforma o processamento de texto no RAG de um recorte passivo para uma compreensão proativa, definindo esse processo como extração de memória documental com o objetivo de simular os processos cognitivos humanos durante a leitura. Com base nisso, propomos o framework Mixtures of Scenario-aware Document Memories (MoM), projetado para lidar eficientemente com documentos de múltiplos domínios e treinar modelos de linguagem pequenos (SLMs) para adquirir a capacidade de explorar e construir memórias documentais de forma proativa. O MoM inicialmente instrui modelos de linguagem grandes (LLMs) a simular especialistas de domínio na geração de esboços lógicos de documentos, direcionando assim o recorte estruturado e a extração de conteúdo central. Ele emprega um mecanismo de amostragem multipath e avaliação multiperspectiva, projetando especificamente métricas abrangentes que representam a clareza dos trechos e a completude da extração para selecionar as melhores memórias documentais. Além disso, para infundir habilidades de leitura mais profundas e semelhantes às humanas durante o treinamento dos SLMs, incorporamos uma estratégia de raciocínio reverso, que deduz caminhos de pensamento especializados refinados a partir de resultados de alta qualidade. Por fim, aproveitando diversas formas de conteúdo geradas pelo MoM, desenvolvemos um mecanismo de recuperação de memória documental de três camadas, fundamentado em nossa prova teórica a partir da perspectiva de modelagem probabilística. Resultados experimentais extensivos em três domínios distintos demonstram que o framework MoM não apenas resolve os desafios de recorte de texto nos sistemas RAG existentes, fornecendo aos LLMs memórias documentais semanticamente completas, mas também abre caminho para que os SLMs alcancem o processamento de texto inteligente centrado no ser humano.
English
The traditional RAG paradigm, which typically engages in the comprehension of
relevant text chunks in response to received queries, inherently restricts both
the depth of knowledge internalization and reasoning capabilities. To address
this limitation, our research transforms the text processing in RAG from
passive chunking to proactive understanding, defining this process as document
memory extraction with the objective of simulating human cognitive processes
during reading. Building upon this, we propose the Mixtures of scenario-aware
document Memories (MoM) framework, engineered to efficiently handle documents
from multiple domains and train small language models (SLMs) to acquire the
ability to proactively explore and construct document memories. The MoM
initially instructs large language models (LLMs) to simulate domain experts in
generating document logical outlines, thereby directing structured chunking and
core content extraction. It employs a multi-path sampling and multi-perspective
evaluation mechanism, specifically designing comprehensive metrics that
represent chunk clarity and extraction completeness to select the optimal
document memories. Additionally, to infuse deeper human-like reading abilities
during the training of SLMs, we incorporate a reverse reasoning strategy, which
deduces refined expert thinking paths from high-quality outcomes. Finally,
leveraging diverse forms of content generated by MoM, we develop a three-layer
document memory retrieval mechanism, which is grounded in our theoretical proof
from the perspective of probabilistic modeling. Extensive experimental results
across three distinct domains demonstrate that the MoM framework not only
resolves text chunking challenges in existing RAG systems, providing LLMs with
semantically complete document memories, but also paves the way for SLMs to
achieve human-centric intelligent text processing.