ChatPaper.aiChatPaper

MoM: Misturas de Memórias de Documentos Conscientes do Cenário para Sistemas de Geração Aumentada por Recuperação

MoM: Mixtures of Scenario-Aware Document Memories for Retrieval-Augmented Generation Systems

October 16, 2025
Autores: Jihao Zhao, Zhiyuan Ji, Simin Niu, Hanyu Wang, Feiyu Xiong, Zhiyu Li
cs.AI

Resumo

O paradigma tradicional de RAG (Retrieval-Augmented Generation), que normalmente envolve a compreensão de trechos de texto relevantes em resposta a consultas recebidas, restringe inerentemente tanto a profundidade da internalização do conhecimento quanto as capacidades de raciocínio. Para abordar essa limitação, nossa pesquisa transforma o processamento de texto no RAG de um recorte passivo para uma compreensão proativa, definindo esse processo como extração de memória documental com o objetivo de simular os processos cognitivos humanos durante a leitura. Com base nisso, propomos o framework Mixtures of Scenario-aware Document Memories (MoM), projetado para lidar eficientemente com documentos de múltiplos domínios e treinar modelos de linguagem pequenos (SLMs) para adquirir a capacidade de explorar e construir memórias documentais de forma proativa. O MoM inicialmente instrui modelos de linguagem grandes (LLMs) a simular especialistas de domínio na geração de esboços lógicos de documentos, direcionando assim o recorte estruturado e a extração de conteúdo central. Ele emprega um mecanismo de amostragem multipath e avaliação multiperspectiva, projetando especificamente métricas abrangentes que representam a clareza dos trechos e a completude da extração para selecionar as melhores memórias documentais. Além disso, para infundir habilidades de leitura mais profundas e semelhantes às humanas durante o treinamento dos SLMs, incorporamos uma estratégia de raciocínio reverso, que deduz caminhos de pensamento especializados refinados a partir de resultados de alta qualidade. Por fim, aproveitando diversas formas de conteúdo geradas pelo MoM, desenvolvemos um mecanismo de recuperação de memória documental de três camadas, fundamentado em nossa prova teórica a partir da perspectiva de modelagem probabilística. Resultados experimentais extensivos em três domínios distintos demonstram que o framework MoM não apenas resolve os desafios de recorte de texto nos sistemas RAG existentes, fornecendo aos LLMs memórias documentais semanticamente completas, mas também abre caminho para que os SLMs alcancem o processamento de texto inteligente centrado no ser humano.
English
The traditional RAG paradigm, which typically engages in the comprehension of relevant text chunks in response to received queries, inherently restricts both the depth of knowledge internalization and reasoning capabilities. To address this limitation, our research transforms the text processing in RAG from passive chunking to proactive understanding, defining this process as document memory extraction with the objective of simulating human cognitive processes during reading. Building upon this, we propose the Mixtures of scenario-aware document Memories (MoM) framework, engineered to efficiently handle documents from multiple domains and train small language models (SLMs) to acquire the ability to proactively explore and construct document memories. The MoM initially instructs large language models (LLMs) to simulate domain experts in generating document logical outlines, thereby directing structured chunking and core content extraction. It employs a multi-path sampling and multi-perspective evaluation mechanism, specifically designing comprehensive metrics that represent chunk clarity and extraction completeness to select the optimal document memories. Additionally, to infuse deeper human-like reading abilities during the training of SLMs, we incorporate a reverse reasoning strategy, which deduces refined expert thinking paths from high-quality outcomes. Finally, leveraging diverse forms of content generated by MoM, we develop a three-layer document memory retrieval mechanism, which is grounded in our theoretical proof from the perspective of probabilistic modeling. Extensive experimental results across three distinct domains demonstrate that the MoM framework not only resolves text chunking challenges in existing RAG systems, providing LLMs with semantically complete document memories, but also paves the way for SLMs to achieve human-centric intelligent text processing.
PDF22October 17, 2025