MoC: Mezclas de Aprendices de Segmentación de Texto para Sistemas de Generación Aumentada por Recuperación

Resumen

La Generación Aumentada por Recuperación (RAG, por sus siglas en inglés), aunque sirve como un complemento viable para los modelos de lenguaje de gran escala (LLMs), a menudo pasa por alto el aspecto crucial de la segmentación de texto dentro de su pipeline. Este artículo introduce inicialmente un método de evaluación de doble métrica, que comprende la Claridad de Límites y la Adherencia de Segmentos, para permitir la cuantificación directa de la calidad de la segmentación. Aprovechando este método de evaluación, destacamos las limitaciones inherentes de la segmentación tradicional y semántica al manejar matices contextuales complejos, lo que sustenta la necesidad de integrar LLMs en el proceso de segmentación. Para abordar el equilibrio inherente entre la eficiencia computacional y la precisión de la segmentación en enfoques basados en LLMs, diseñamos el marco de Mezcla de Segmentadores Conscientes de la Granularidad (MoC, por sus siglas en inglés), que consta de un mecanismo de procesamiento en tres etapas. Cabe destacar que nuestro objetivo es guiar al segmentador hacia la generación de una lista estructurada de expresiones regulares de segmentación, que posteriormente se emplean para extraer segmentos del texto original. Experimentos extensos demuestran que tanto nuestras métricas propuestas como el marco MoC resuelven efectivamente los desafíos de la tarea de segmentación, revelando el núcleo de la segmentación mientras mejoran el rendimiento del sistema RAG.

English

Retrieval-Augmented Generation (RAG), while serving as a viable complement to large language models (LLMs), often overlooks the crucial aspect of text chunking within its pipeline. This paper initially introduces a dual-metric evaluation method, comprising Boundary Clarity and Chunk Stickiness, to enable the direct quantification of chunking quality. Leveraging this assessment method, we highlight the inherent limitations of traditional and semantic chunking in handling complex contextual nuances, thereby substantiating the necessity of integrating LLMs into chunking process. To address the inherent trade-off between computational efficiency and chunking precision in LLM-based approaches, we devise the granularity-aware Mixture-of-Chunkers (MoC) framework, which consists of a three-stage processing mechanism. Notably, our objective is to guide the chunker towards generating a structured list of chunking regular expressions, which are subsequently employed to extract chunks from the original text. Extensive experiments demonstrate that both our proposed metrics and the MoC framework effectively settle challenges of the chunking task, revealing the chunking kernel while enhancing the performance of the RAG system.

MoC: Mezclas de Aprendices de Segmentación de Texto para Sistemas de Generación Aumentada por Recuperación

MoC: Mixtures of Text Chunking Learners for Retrieval-Augmented Generation System

Resumen

Support