MoC : Mélanges de classificateurs de segments textuels pour un système de génération augmentée par récupération
MoC: Mixtures of Text Chunking Learners for Retrieval-Augmented Generation System
March 12, 2025
Auteurs: Jihao Zhao, Zhiyuan Ji, Zhaoxin Fan, Hanyu Wang, Simin Niu, Bo Tang, Feiyu Xiong, Zhiyu Li
cs.AI
Résumé
La Génération Augmentée par Récupération (Retrieval-Augmented Generation, RAG), bien qu'elle serve de complément viable aux grands modèles de langage (LLMs), néglige souvent l'aspect crucial du découpage de texte dans son pipeline. Ce papier introduit initialement une méthode d'évaluation à double métrique, comprenant la Clarté des Limites et l'Adhérence des Segments, permettant de quantifier directement la qualité du découpage. En exploitant cette méthode d'évaluation, nous mettons en lumière les limitations inhérentes des méthodes traditionnelles et sémantiques de découpage dans la gestion des nuances contextuelles complexes, justifiant ainsi la nécessité d'intégrer les LLMs dans le processus de découpage. Pour aborder le compromis inhérent entre l'efficacité computationnelle et la précision du découpage dans les approches basées sur les LLMs, nous concevons le cadre Granularité-Aware Mixture-of-Chunkers (MoC), qui consiste en un mécanisme de traitement en trois étapes. Notamment, notre objectif est de guider le découpeur vers la génération d'une liste structurée d'expressions régulières de découpage, qui sont ensuite utilisées pour extraire les segments du texte original. Des expériences approfondies démontrent que nos métriques proposées ainsi que le cadre MoC résolvent efficacement les défis de la tâche de découpage, révélant le noyau de découpage tout en améliorant les performances du système RAG.
English
Retrieval-Augmented Generation (RAG), while serving as a viable complement to
large language models (LLMs), often overlooks the crucial aspect of text
chunking within its pipeline. This paper initially introduces a dual-metric
evaluation method, comprising Boundary Clarity and Chunk Stickiness, to enable
the direct quantification of chunking quality. Leveraging this assessment
method, we highlight the inherent limitations of traditional and semantic
chunking in handling complex contextual nuances, thereby substantiating the
necessity of integrating LLMs into chunking process. To address the inherent
trade-off between computational efficiency and chunking precision in LLM-based
approaches, we devise the granularity-aware Mixture-of-Chunkers (MoC)
framework, which consists of a three-stage processing mechanism. Notably, our
objective is to guide the chunker towards generating a structured list of
chunking regular expressions, which are subsequently employed to extract chunks
from the original text. Extensive experiments demonstrate that both our
proposed metrics and the MoC framework effectively settle challenges of the
chunking task, revealing the chunking kernel while enhancing the performance of
the RAG system.Summary
AI-Generated Summary