ChatPaper.aiChatPaper

MoM: Miscele di Memorie Documentali Consapevoli dello Scenario per Sistemi di Generazione Aumentata dal Recupero Informazioni

MoM: Mixtures of Scenario-Aware Document Memories for Retrieval-Augmented Generation Systems

October 16, 2025
Autori: Jihao Zhao, Zhiyuan Ji, Simin Niu, Hanyu Wang, Feiyu Xiong, Zhiyu Li
cs.AI

Abstract

Il paradigma tradizionale di RAG (Retrieval-Augmented Generation), che tipicamente si impegna nella comprensione di frammenti di testo rilevanti in risposta alle query ricevute, limita intrinsecamente sia la profondità dell'interiorizzazione della conoscenza che le capacità di ragionamento. Per affrontare questa limitazione, la nostra ricerca trasforma l'elaborazione del testo in RAG da un'operazione passiva di frammentazione a una comprensione proattiva, definendo questo processo come estrazione della memoria documentaria con l'obiettivo di simulare i processi cognitivi umani durante la lettura. Basandoci su questo, proponiamo il framework Mixtures of scenario-aware document Memories (MoM), progettato per gestire in modo efficiente documenti provenienti da più domini e addestrare piccoli modelli linguistici (SLM) per acquisire la capacità di esplorare e costruire proattivamente memorie documentarie. Il MoM inizialmente istruisce i grandi modelli linguistici (LLM) a simulare esperti di dominio nella generazione di schemi logici documentari, guidando così la frammentazione strutturata e l'estrazione del contenuto principale. Utilizza un meccanismo di campionamento multipercorso e valutazione multiprospettica, progettando specificamente metriche complete che rappresentano la chiarezza dei frammenti e la completezza dell'estrazione per selezionare le memorie documentarie ottimali. Inoltre, per infondere capacità di lettura più profonde e simili a quelle umane durante l'addestramento degli SLM, incorporiamo una strategia di ragionamento inverso, che deduce percorsi di pensiero esperti raffinati da risultati di alta qualità. Infine, sfruttando le diverse forme di contenuto generate da MoM, sviluppiamo un meccanismo di recupero della memoria documentaria a tre livelli, basato sulla nostra dimostrazione teorica dal punto di vista della modellazione probabilistica. I risultati sperimentali estesi in tre domini distinti dimostrano che il framework MoM non solo risolve le sfide della frammentazione del testo nei sistemi RAG esistenti, fornendo agli LLM memorie documentarie semanticamente complete, ma apre anche la strada agli SLM per raggiungere un'elaborazione del testo intelligente e centrata sull'uomo.
English
The traditional RAG paradigm, which typically engages in the comprehension of relevant text chunks in response to received queries, inherently restricts both the depth of knowledge internalization and reasoning capabilities. To address this limitation, our research transforms the text processing in RAG from passive chunking to proactive understanding, defining this process as document memory extraction with the objective of simulating human cognitive processes during reading. Building upon this, we propose the Mixtures of scenario-aware document Memories (MoM) framework, engineered to efficiently handle documents from multiple domains and train small language models (SLMs) to acquire the ability to proactively explore and construct document memories. The MoM initially instructs large language models (LLMs) to simulate domain experts in generating document logical outlines, thereby directing structured chunking and core content extraction. It employs a multi-path sampling and multi-perspective evaluation mechanism, specifically designing comprehensive metrics that represent chunk clarity and extraction completeness to select the optimal document memories. Additionally, to infuse deeper human-like reading abilities during the training of SLMs, we incorporate a reverse reasoning strategy, which deduces refined expert thinking paths from high-quality outcomes. Finally, leveraging diverse forms of content generated by MoM, we develop a three-layer document memory retrieval mechanism, which is grounded in our theoretical proof from the perspective of probabilistic modeling. Extensive experimental results across three distinct domains demonstrate that the MoM framework not only resolves text chunking challenges in existing RAG systems, providing LLMs with semantically complete document memories, but also paves the way for SLMs to achieve human-centric intelligent text processing.
PDF22October 17, 2025