MoC: Mengsels van Tekstsegmentatie-leerders voor een Retrieval-Augmented Generatiesysteem
MoC: Mixtures of Text Chunking Learners for Retrieval-Augmented Generation System
March 12, 2025
Auteurs: Jihao Zhao, Zhiyuan Ji, Zhaoxin Fan, Hanyu Wang, Simin Niu, Bo Tang, Feiyu Xiong, Zhiyu Li
cs.AI
Samenvatting
Retrieval-Augmented Generation (RAG), hoewel het een waardevolle aanvulling vormt op grote taalmodelen (LLMs), negeert vaak het cruciale aspect van tekstsegmentering binnen zijn pijplijn. Dit artikel introduceert eerst een dubbele-metric evaluatiemethode, bestaande uit Boundary Clarity en Chunk Stickiness, om de directe kwantificering van segmenteringskwaliteit mogelijk te maken. Door gebruik te maken van deze beoordelingsmethode, benadrukken we de inherente beperkingen van traditionele en semantische segmentering bij het omgaan met complexe contextuele nuances, waardoor de noodzaak van het integreren van LLMs in het segmenteringsproces wordt onderbouwd. Om het inherente compromis tussen computationele efficiëntie en segmenteringsprecisie in LLM-gebaseerde benaderingen aan te pakken, ontwikkelen we het granulariteitsbewuste Mixture-of-Chunkers (MoC) framework, dat bestaat uit een drietraps verwerkingsmechanisme. Opmerkelijk is dat ons doel is om de segmenteringsmodule te begeleiden bij het genereren van een gestructureerde lijst van segmenteringsreguliere expressies, die vervolgens worden gebruikt om segmenten uit de originele tekst te extraheren. Uitgebreide experimenten tonen aan dat zowel onze voorgestelde metrics als het MoC-framework effectief de uitdagingen van de segmenteringstaak aanpakken, de segmenteringskern blootleggen en tegelijkertijd de prestaties van het RAG-systeem verbeteren.
English
Retrieval-Augmented Generation (RAG), while serving as a viable complement to
large language models (LLMs), often overlooks the crucial aspect of text
chunking within its pipeline. This paper initially introduces a dual-metric
evaluation method, comprising Boundary Clarity and Chunk Stickiness, to enable
the direct quantification of chunking quality. Leveraging this assessment
method, we highlight the inherent limitations of traditional and semantic
chunking in handling complex contextual nuances, thereby substantiating the
necessity of integrating LLMs into chunking process. To address the inherent
trade-off between computational efficiency and chunking precision in LLM-based
approaches, we devise the granularity-aware Mixture-of-Chunkers (MoC)
framework, which consists of a three-stage processing mechanism. Notably, our
objective is to guide the chunker towards generating a structured list of
chunking regular expressions, which are subsequently employed to extract chunks
from the original text. Extensive experiments demonstrate that both our
proposed metrics and the MoC framework effectively settle challenges of the
chunking task, revealing the chunking kernel while enhancing the performance of
the RAG system.Summary
AI-Generated Summary