ChatPaper.aiChatPaper

MoC: Ансамбли моделей для сегментации текстовых блоков в системе генерации с расширением на основе поиска

MoC: Mixtures of Text Chunking Learners for Retrieval-Augmented Generation System

March 12, 2025
Авторы: Jihao Zhao, Zhiyuan Ji, Zhaoxin Fan, Hanyu Wang, Simin Niu, Bo Tang, Feiyu Xiong, Zhiyu Li
cs.AI

Аннотация

Генерация с использованием поиска (Retrieval-Augmented Generation, RAG), хотя и служит эффективным дополнением к большим языковым моделям (LLM), часто упускает из виду важный аспект разбиения текста на фрагменты в рамках своего конвейера. В данной работе сначала представлен метод двойной метрики, включающий Ясность границ и Сцепляемость фрагментов, который позволяет напрямую количественно оценивать качество разбиения. Используя этот метод оценки, мы подчеркиваем присущие ограничения традиционного и семантического разбиения при обработке сложных контекстуальных нюансов, тем самым обосновывая необходимость интеграции LLM в процесс разбиения. Для решения компромисса между вычислительной эффективностью и точностью разбиения в подходах на основе LLM мы разработали гранулярно-ориентированную структуру Mixture-of-Chunkers (MoC), которая состоит из трехэтапного механизма обработки. Важно отметить, что наша цель — направить разбиватель на создание структурированного списка регулярных выражений для разбиения, которые затем используются для извлечения фрагментов из исходного текста. Многочисленные эксперименты демонстрируют, что как предложенные нами метрики, так и структура MoC эффективно решают задачи разбиения, раскрывая ядро процесса разбиения и повышая производительность системы RAG.
English
Retrieval-Augmented Generation (RAG), while serving as a viable complement to large language models (LLMs), often overlooks the crucial aspect of text chunking within its pipeline. This paper initially introduces a dual-metric evaluation method, comprising Boundary Clarity and Chunk Stickiness, to enable the direct quantification of chunking quality. Leveraging this assessment method, we highlight the inherent limitations of traditional and semantic chunking in handling complex contextual nuances, thereby substantiating the necessity of integrating LLMs into chunking process. To address the inherent trade-off between computational efficiency and chunking precision in LLM-based approaches, we devise the granularity-aware Mixture-of-Chunkers (MoC) framework, which consists of a three-stage processing mechanism. Notably, our objective is to guide the chunker towards generating a structured list of chunking regular expressions, which are subsequently employed to extract chunks from the original text. Extensive experiments demonstrate that both our proposed metrics and the MoC framework effectively settle challenges of the chunking task, revealing the chunking kernel while enhancing the performance of the RAG system.

Summary

AI-Generated Summary

PDF43March 13, 2025