RAG de Baixo Custo para Correspondência de Entidades com LLMs: Uma Exploração Baseada em Blocos
Cost-Efficient RAG for Entity Matching with LLMs: A Blocking-based Exploration
February 5, 2026
Autores: Chuangtao Ma, Zeyu Zhang, Arijit Khan, Sebastian Schelter, Paul Groth
cs.AI
Resumo
A geração aumentada por recuperação (RAG) melhora o raciocínio de LLMs em tarefas intensivas em conhecimento, mas os pipelines de RAG existentes incorrem em sobrecarga substancial de recuperação e geração quando aplicados à correspondência de entidades em larga escala. Para superar esta limitação, apresentamos o CE-RAG4EM, uma arquitetura RAG de baixo custo que reduz a computação através de recuperação e geração em lote baseadas em blocagem. Também apresentamos um framework unificado para analisar e avaliar sistemas RAG para correspondência de entidades, focando em otimizações conscientes da blocagem e granularidade de recuperação. Experimentos extensivos sugerem que o CE-RAG4EM pode alcançar qualidade de correspondência comparável ou melhorada enquanto reduz substancialmente o tempo de execução de ponta a ponta em relação a linhas de base robustas. Nossa análise revela ainda que parâmetros-chave de configuração introduzem uma compensação inerente entre desempenho e sobrecarga, oferecendo orientação prática para projetar sistemas RAG eficientes e escaláveis para correspondência de entidades e integração de dados.
English
Retrieval-augmented generation (RAG) enhances LLM reasoning in knowledge-intensive tasks, but existing RAG pipelines incur substantial retrieval and generation overhead when applied to large-scale entity matching. To address this limitation, we introduce CE-RAG4EM, a cost-efficient RAG architecture that reduces computation through blocking-based batch retrieval and generation. We also present a unified framework for analyzing and evaluating RAG systems for entity matching, focusing on blocking-aware optimizations and retrieval granularity. Extensive experiments suggest that CE-RAG4EM can achieve comparable or improved matching quality while substantially reducing end-to-end runtime relative to strong baselines. Our analysis further reveals that key configuration parameters introduce an inherent trade-off between performance and overhead, offering practical guidance for designing efficient and scalable RAG systems for entity matching and data integration.