Web Retrieval-Aware Chunking (W-RAC) voor Efficiënte en Kosteneffectieve Retrieval-Augmented Generation Systemen

Samenvatting

Retrieval-Augmented Generation (RAG)-systemen zijn voor hun werking in kritieke mate afhankelijk van effectieve strategieën voor het opdelen van documenten in segmenten (chunking) om een balans te vinden tussen retrievalkwaliteit, latentie en operationele kosten. Traditionele chunking-benaderingen, zoals fixed-size, rule-based of volledig agent-gestuurde chunking, kampen vaak met een hoog tokenverbruik, redundante tekstgeneratie, beperkte schaalbaarheid en slechte debugbaarheid, vooral bij de verwerking van grootschalige webcontent. In dit artikel introduceren we Web Retrieval-Aware Chunking (W-RAC), een nieuw, kostenefficiënt chunking-framework dat specifiek is ontworpen voor webgebaseerde documenten. W-RAC ontkoppelt tekstextractie van semantische chunkplanning door geparsete webcontent te representeren als gestructureerde, ID-adresseerbare eenheden en large language models (LLM's) alleen in te zetten voor retrieval-afwegingen bij groeperingsbeslissingen in plaats van voor tekstgeneratie. Dit vermindert het tokenverbruik aanzienlijk, elimineert hallucinatierisico's en verbetert de observeerbaarheid van het systeem. Experimentele analyse en architectuurvergelijking tonen aan dat W-RAC een vergelijkbare of betere retrievalprestatie bereikt dan traditionele chunking-benaderingen, terwijl de aan chunking gerelateerde LLM-kosten met een factor tien worden verlaagd.

English

Retrieval-Augmented Generation (RAG) systems critically depend on effective document chunking strategies to balance retrieval quality, latency, and operational cost. Traditional chunking approaches, such as fixed-size, rule-based, or fully agentic chunking, often suffer from high token consumption, redundant text generation, limited scalability, and poor debuggability, especially for large-scale web content ingestion. In this paper, we propose Web Retrieval-Aware Chunking (W-RAC), a novel, cost-efficient chunking framework designed specifically for web-based documents. W-RAC decouples text extraction from semantic chunk planning by representing parsed web content as structured, ID-addressable units and leveraging large language models (LLMs) only for retrieval-aware grouping decisions rather than text generation. This significantly reduces token usage, eliminates hallucination risks, and improves system observability.Experimental analysis and architectural comparison demonstrate that W-RAC achieves comparable or better retrieval performance than traditional chunking approaches while reducing chunking-related LLM costs by an order of magnitude.

Web Retrieval-Aware Chunking (W-RAC) voor Efficiënte en Kosteneffectieve Retrieval-Augmented Generation Systemen

Web Retrieval-Aware Chunking (W-RAC) for Efficient and Cost-Effective Retrieval-Augmented Generation Systems

Samenvatting

Support