Web Retrieval-Aware Chunking (W-RAC) para Sistemas de Geração Aumentada por Recuperação Eficientes e Rentáveis
Web Retrieval-Aware Chunking (W-RAC) for Efficient and Cost-Effective Retrieval-Augmented Generation Systems
January 8, 2026
Autores: Uday Allu, Sonu Kedia, Tanmay Odapally, Biddwan Ahmed
cs.AI
Resumo
Os sistemas de Geração Aumentada por Recuperação (RAG) dependem criticamente de estratégias eficazes de segmentação de documentos para equilibrar a qualidade da recuperação, a latência e o custo operacional. As abordagens tradicionais de segmentação, como as baseadas em tamanho fixo, regras ou em agentes autónomos, frequentemente sofrem com alto consumo de *tokens*, geração de texto redundante, escalabilidade limitada e fraca capacidade de depuração, especialmente para a ingestão de conteúdo web em larga escala. Neste artigo, propomos o *Web Retrieval-Aware Chunking* (W-RAC), uma nova estrutura de segmentação económica, concebida especificamente para documentos baseados na web. O W-RAC desacopla a extração de texto do planeamento semântico de segmentação, representando o conteúdo web analisado como unidades estruturadas e endereçáveis por ID, e aproveitando os grandes modelos de linguagem (LLMs) apenas para decisões de agrupamento conscientes da recuperação, em vez de para geração de texto. Isto reduz significativamente o uso de *tokens*, elimina os riscos de alucinação e melhora a observabilidade do sistema. A análise experimental e a comparação arquitetónica demonstram que o W-RAC atinge um desempenho de recuperação comparável ou superior às abordagens de segmentação tradicionais, enquanto reduz os custos com LLM relacionados com a segmentação em uma ordem de grandeza.
English
Retrieval-Augmented Generation (RAG) systems critically depend on effective document chunking strategies to balance retrieval quality, latency, and operational cost. Traditional chunking approaches, such as fixed-size, rule-based, or fully agentic chunking, often suffer from high token consumption, redundant text generation, limited scalability, and poor debuggability, especially for large-scale web content ingestion. In this paper, we propose Web Retrieval-Aware Chunking (W-RAC), a novel, cost-efficient chunking framework designed specifically for web-based documents. W-RAC decouples text extraction from semantic chunk planning by representing parsed web content as structured, ID-addressable units and leveraging large language models (LLMs) only for retrieval-aware grouping decisions rather than text generation. This significantly reduces token usage, eliminates hallucination risks, and improves system observability.Experimental analysis and architectural comparison demonstrate that W-RAC achieves comparable or better retrieval performance than traditional chunking approaches while reducing chunking-related LLM costs by an order of magnitude.