MoC: Mezclas de Aprendices de Segmentación de Texto para Sistemas de Generación Aumentada por Recuperación
MoC: Mixtures of Text Chunking Learners for Retrieval-Augmented Generation System
March 12, 2025
Autores: Jihao Zhao, Zhiyuan Ji, Zhaoxin Fan, Hanyu Wang, Simin Niu, Bo Tang, Feiyu Xiong, Zhiyu Li
cs.AI
Resumen
La Generación Aumentada por Recuperación (RAG, por sus siglas en inglés), aunque sirve como un complemento viable para los modelos de lenguaje de gran escala (LLMs), a menudo pasa por alto el aspecto crucial de la segmentación de texto dentro de su pipeline. Este artículo introduce inicialmente un método de evaluación de doble métrica, que comprende la Claridad de Límites y la Adherencia de Segmentos, para permitir la cuantificación directa de la calidad de la segmentación. Aprovechando este método de evaluación, destacamos las limitaciones inherentes de la segmentación tradicional y semántica al manejar matices contextuales complejos, lo que sustenta la necesidad de integrar LLMs en el proceso de segmentación. Para abordar el equilibrio inherente entre la eficiencia computacional y la precisión de la segmentación en enfoques basados en LLMs, diseñamos el marco de Mezcla de Segmentadores Conscientes de la Granularidad (MoC, por sus siglas en inglés), que consta de un mecanismo de procesamiento en tres etapas. Cabe destacar que nuestro objetivo es guiar al segmentador hacia la generación de una lista estructurada de expresiones regulares de segmentación, que posteriormente se emplean para extraer segmentos del texto original. Experimentos extensos demuestran que tanto nuestras métricas propuestas como el marco MoC resuelven efectivamente los desafíos de la tarea de segmentación, revelando el núcleo de la segmentación mientras mejoran el rendimiento del sistema RAG.
English
Retrieval-Augmented Generation (RAG), while serving as a viable complement to
large language models (LLMs), often overlooks the crucial aspect of text
chunking within its pipeline. This paper initially introduces a dual-metric
evaluation method, comprising Boundary Clarity and Chunk Stickiness, to enable
the direct quantification of chunking quality. Leveraging this assessment
method, we highlight the inherent limitations of traditional and semantic
chunking in handling complex contextual nuances, thereby substantiating the
necessity of integrating LLMs into chunking process. To address the inherent
trade-off between computational efficiency and chunking precision in LLM-based
approaches, we devise the granularity-aware Mixture-of-Chunkers (MoC)
framework, which consists of a three-stage processing mechanism. Notably, our
objective is to guide the chunker towards generating a structured list of
chunking regular expressions, which are subsequently employed to extract chunks
from the original text. Extensive experiments demonstrate that both our
proposed metrics and the MoC framework effectively settle challenges of the
chunking task, revealing the chunking kernel while enhancing the performance of
the RAG system.Summary
AI-Generated Summary