ChatPaper.aiChatPaper

MoC : Mélanges de classificateurs de segments textuels pour un système de génération augmentée par récupération

MoC: Mixtures of Text Chunking Learners for Retrieval-Augmented Generation System

March 12, 2025
Auteurs: Jihao Zhao, Zhiyuan Ji, Zhaoxin Fan, Hanyu Wang, Simin Niu, Bo Tang, Feiyu Xiong, Zhiyu Li
cs.AI

Résumé

La Génération Augmentée par Récupération (Retrieval-Augmented Generation, RAG), bien qu'elle serve de complément viable aux grands modèles de langage (LLMs), néglige souvent l'aspect crucial du découpage de texte dans son pipeline. Ce papier introduit initialement une méthode d'évaluation à double métrique, comprenant la Clarté des Limites et l'Adhérence des Segments, permettant de quantifier directement la qualité du découpage. En exploitant cette méthode d'évaluation, nous mettons en lumière les limitations inhérentes des méthodes traditionnelles et sémantiques de découpage dans la gestion des nuances contextuelles complexes, justifiant ainsi la nécessité d'intégrer les LLMs dans le processus de découpage. Pour aborder le compromis inhérent entre l'efficacité computationnelle et la précision du découpage dans les approches basées sur les LLMs, nous concevons le cadre Granularité-Aware Mixture-of-Chunkers (MoC), qui consiste en un mécanisme de traitement en trois étapes. Notamment, notre objectif est de guider le découpeur vers la génération d'une liste structurée d'expressions régulières de découpage, qui sont ensuite utilisées pour extraire les segments du texte original. Des expériences approfondies démontrent que nos métriques proposées ainsi que le cadre MoC résolvent efficacement les défis de la tâche de découpage, révélant le noyau de découpage tout en améliorant les performances du système RAG.
English
Retrieval-Augmented Generation (RAG), while serving as a viable complement to large language models (LLMs), often overlooks the crucial aspect of text chunking within its pipeline. This paper initially introduces a dual-metric evaluation method, comprising Boundary Clarity and Chunk Stickiness, to enable the direct quantification of chunking quality. Leveraging this assessment method, we highlight the inherent limitations of traditional and semantic chunking in handling complex contextual nuances, thereby substantiating the necessity of integrating LLMs into chunking process. To address the inherent trade-off between computational efficiency and chunking precision in LLM-based approaches, we devise the granularity-aware Mixture-of-Chunkers (MoC) framework, which consists of a three-stage processing mechanism. Notably, our objective is to guide the chunker towards generating a structured list of chunking regular expressions, which are subsequently employed to extract chunks from the original text. Extensive experiments demonstrate that both our proposed metrics and the MoC framework effectively settle challenges of the chunking task, revealing the chunking kernel while enhancing the performance of the RAG system.

Summary

AI-Generated Summary

PDF43March 13, 2025