Web Retrieval-Aware Chunking (W-RAC) per Sistemi di Retrieval-Augmented Generation Efficienti e Convenienti

Abstract

I sistemi di Generazione Aumentata dal Recupero (RAG) dipendono in modo critico da strategie efficaci di suddivisione dei documenti per bilanciare qualità del recupero, latenza e costo operativo. Gli approcci tradizionali di suddivisione, come quella a dimensione fissa, basata su regole o completamente agenziale, soffrono spesso di elevato consumo di token, generazione ridondante di testo, scalabilità limitata e scarsa capacità di debug, specialmente per l'ingestione di contenuti web su larga scala. In questo articolo, proponiamo il Web Retrieval-Aware Chunking (W-RAC), un nuovo framework di suddivisione efficiente in termini di costi, progettato specificamente per documenti di origine web. W-RAC disaccoppia l'estrazione del testo dalla pianificazione semantica dei chunk rappresentando il contenuto web analizzato come unità strutturate e indirizzabili tramite ID, e sfruttando i grandi modelli linguistici (LLM) solo per decisioni di raggruppamento consapevoli del recupero, anziché per la generazione di testo. Ciò riduce significativamente l'uso di token, elimina i rischi di allucinazione e migliora l'osservabilità del sistema. L'analisi sperimentale e il confronto architetturale dimostrano che W-RAC raggiunge prestazioni di recupero paragonabili o migliori rispetto agli approcci di suddivisione tradizionali, riducendo al contempo i costi LLM legati alla suddivisione di un ordine di grandezza.

English

Retrieval-Augmented Generation (RAG) systems critically depend on effective document chunking strategies to balance retrieval quality, latency, and operational cost. Traditional chunking approaches, such as fixed-size, rule-based, or fully agentic chunking, often suffer from high token consumption, redundant text generation, limited scalability, and poor debuggability, especially for large-scale web content ingestion. In this paper, we propose Web Retrieval-Aware Chunking (W-RAC), a novel, cost-efficient chunking framework designed specifically for web-based documents. W-RAC decouples text extraction from semantic chunk planning by representing parsed web content as structured, ID-addressable units and leveraging large language models (LLMs) only for retrieval-aware grouping decisions rather than text generation. This significantly reduces token usage, eliminates hallucination risks, and improves system observability.Experimental analysis and architectural comparison demonstrate that W-RAC achieves comparable or better retrieval performance than traditional chunking approaches while reducing chunking-related LLM costs by an order of magnitude.

Web Retrieval-Aware Chunking (W-RAC) per Sistemi di Retrieval-Augmented Generation Efficienti e Convenienti

Web Retrieval-Aware Chunking (W-RAC) for Efficient and Cost-Effective Retrieval-Augmented Generation Systems

Abstract

Support