ChatPaper.aiChatPaper

MoC: 검색 강화 생성 시스템을 위한 텍스트 청크 분할 학습자 혼합 모델

MoC: Mixtures of Text Chunking Learners for Retrieval-Augmented Generation System

March 12, 2025
저자: Jihao Zhao, Zhiyuan Ji, Zhaoxin Fan, Hanyu Wang, Simin Niu, Bo Tang, Feiyu Xiong, Zhiyu Li
cs.AI

초록

검색 증강 생성(Retrieval-Augmented Generation, RAG)은 대규모 언어 모델(LLM)에 대한 유용한 보완재로 기능하지만, 종종 파이프라인 내에서의 텍스트 청킹(chunking)이라는 중요한 측면을 간과합니다. 본 논문은 먼저 청킹 품질을 직접적으로 계량화할 수 있도록 경계 명확성(Boundary Clarity)과 청크 접착성(Chunk Stickiness)으로 구성된 이중 메트릭 평가 방법을 소개합니다. 이 평가 방법을 활용하여, 우리는 복잡한 문맥적 뉘앙스를 처리하는 데 있어 전통적 및 의미론적 청킹의 본질적 한계를 부각시킴으로써 청킹 과정에 LLM을 통합할 필요성을 입증합니다. LLM 기반 접근법에서 계산 효율성과 청킹 정밀도 사이의 본질적 트레이드오프를 해결하기 위해, 우리는 세 단계 처리 메커니즘으로 구성된 세분화 인식 청커 혼합(Mixture-of-Chunkers, MoC) 프레임워크를 고안합니다. 특히, 우리의 목표는 청커가 구조화된 청킹 정규 표현식 목록을 생성하도록 유도한 후 이를 원본 텍스트에서 청크를 추출하는 데 사용하는 것입니다. 광범위한 실험을 통해 우리가 제안한 메트릭과 MoC 프레임워크가 청킹 작업의 과제를 효과적으로 해결하며, 청킹 커널을 드러내고 RAG 시스템의 성능을 향상시킴을 입증합니다.
English
Retrieval-Augmented Generation (RAG), while serving as a viable complement to large language models (LLMs), often overlooks the crucial aspect of text chunking within its pipeline. This paper initially introduces a dual-metric evaluation method, comprising Boundary Clarity and Chunk Stickiness, to enable the direct quantification of chunking quality. Leveraging this assessment method, we highlight the inherent limitations of traditional and semantic chunking in handling complex contextual nuances, thereby substantiating the necessity of integrating LLMs into chunking process. To address the inherent trade-off between computational efficiency and chunking precision in LLM-based approaches, we devise the granularity-aware Mixture-of-Chunkers (MoC) framework, which consists of a three-stage processing mechanism. Notably, our objective is to guide the chunker towards generating a structured list of chunking regular expressions, which are subsequently employed to extract chunks from the original text. Extensive experiments demonstrate that both our proposed metrics and the MoC framework effectively settle challenges of the chunking task, revealing the chunking kernel while enhancing the performance of the RAG system.

Summary

AI-Generated Summary

PDF43March 13, 2025