ChatPaper.aiChatPaper

MoM: 검색 증강 생성 시스템을 위한 시나리오 인식 문서 메모리 혼합 모델

MoM: Mixtures of Scenario-Aware Document Memories for Retrieval-Augmented Generation Systems

October 16, 2025
저자: Jihao Zhao, Zhiyuan Ji, Simin Niu, Hanyu Wang, Feiyu Xiong, Zhiyu Li
cs.AI

초록

기존의 RAG(Retrieval-Augmented Generation) 패러다임은 일반적으로 수신된 질의에 대한 응답으로 관련 텍스트 청크를 이해하는 데 초점을 맞추고 있어, 지식 내재화의 깊이와 추론 능력에 본질적인 한계를 지니고 있습니다. 이러한 한계를 해결하기 위해, 본 연구는 RAG의 텍스트 처리를 수동적인 청킹에서 능동적인 이해로 전환하며, 이 과정을 문서 메모리 추출로 정의하여 인간의 인지 과정을 모방하는 것을 목표로 합니다. 이를 기반으로, 우리는 다중 도메인의 문서를 효율적으로 처리하고 소형 언어 모델(SLM)이 능동적으로 문서 메모리를 탐색하고 구축할 수 있는 능력을 습득하도록 설계된 시나리오 인식 문서 메모리 혼합(MoM) 프레임워크를 제안합니다. MoM은 먼저 대형 언어 모델(LLM)이 도메인 전문가를 시뮬레이션하여 문서의 논리적 개요를 생성하도록 지시함으로써 구조화된 청킹과 핵심 내용 추출을 유도합니다. 또한, 다중 경로 샘플링 및 다중 관점 평가 메커니즘을 활용하여 청크 명확성과 추출 완전성을 대표하는 포괄적인 메트릭을 설계하여 최적의 문서 메모리를 선택합니다. 더 나아가, SLM 훈련 중에 더 깊은 인간과 유사한 독해 능력을 주입하기 위해, 고품질 결과에서 정제된 전문가 사고 경로를 추론하는 역추론 전략을 도입합니다. 마지막으로, MoM이 생성한 다양한 형태의 콘텐츠를 활용하여 확률 모델링 관점에서 이론적으로 입증된 3계층 문서 메모리 검색 메커니즘을 개발합니다. 세 가지 다른 도메인에서 수행된 광범위한 실험 결과는 MoM 프레임워크가 기존 RAG 시스템의 텍스트 청킹 문제를 해결하고 LLM에 의미적으로 완전한 문서 메모리를 제공할 뿐만 아니라, SLM이 인간 중심의 지능형 텍스트 처리를 달성할 수 있는 길을 열어준다는 것을 보여줍니다.
English
The traditional RAG paradigm, which typically engages in the comprehension of relevant text chunks in response to received queries, inherently restricts both the depth of knowledge internalization and reasoning capabilities. To address this limitation, our research transforms the text processing in RAG from passive chunking to proactive understanding, defining this process as document memory extraction with the objective of simulating human cognitive processes during reading. Building upon this, we propose the Mixtures of scenario-aware document Memories (MoM) framework, engineered to efficiently handle documents from multiple domains and train small language models (SLMs) to acquire the ability to proactively explore and construct document memories. The MoM initially instructs large language models (LLMs) to simulate domain experts in generating document logical outlines, thereby directing structured chunking and core content extraction. It employs a multi-path sampling and multi-perspective evaluation mechanism, specifically designing comprehensive metrics that represent chunk clarity and extraction completeness to select the optimal document memories. Additionally, to infuse deeper human-like reading abilities during the training of SLMs, we incorporate a reverse reasoning strategy, which deduces refined expert thinking paths from high-quality outcomes. Finally, leveraging diverse forms of content generated by MoM, we develop a three-layer document memory retrieval mechanism, which is grounded in our theoretical proof from the perspective of probabilistic modeling. Extensive experimental results across three distinct domains demonstrate that the MoM framework not only resolves text chunking challenges in existing RAG systems, providing LLMs with semantically complete document memories, but also paves the way for SLMs to achieve human-centric intelligent text processing.
PDF22October 17, 2025