RAG Efficace in Termini di Costo per l'Entity Matching con LLM: Un'Esplorazione Basata sul Blocking
Cost-Efficient RAG for Entity Matching with LLMs: A Blocking-based Exploration
February 5, 2026
Autori: Chuangtao Ma, Zeyu Zhang, Arijit Khan, Sebastian Schelter, Paul Groth
cs.AI
Abstract
La generazione aumentata dal recupero (RAG) migliora il ragionamento dei modelli linguistici di grandi dimensioni (LLM) in compiti ad alta intensità di conoscenza, ma le pipeline RAG esistenti comportano un sovraccarico sostanziale di recupero e generazione quando applicate al matching di entità su larga scala. Per affrontare questa limitazione, introduciamo CE-RAG4EM, un'architettura RAG efficiente in termini di costi che riduce il calcolo attraverso un recupero e una generazione in batch basati sul blocking. Presentiamo inoltre un framework unificato per analizzare e valutare i sistemi RAG per il matching di entità, concentrandosi su ottimizzazioni consapevoli del blocking e sulla granularità del recupero. Esperimenti estesi suggeriscono che CE-RAG4EM può ottenere una qualità di matching comparabile o migliorata, riducendo sostanzialmente il tempo di esecuzione end-to-end rispetto a baseline solide. La nostra analisi rivela inoltre che i parametri di configurazione chiave introducono un compromesso intrinseco tra prestazioni e sovraccarico, offrendo una guida pratica per la progettazione di sistemi RAG efficienti e scalabili per il matching di entità e l'integrazione di dati.
English
Retrieval-augmented generation (RAG) enhances LLM reasoning in knowledge-intensive tasks, but existing RAG pipelines incur substantial retrieval and generation overhead when applied to large-scale entity matching. To address this limitation, we introduce CE-RAG4EM, a cost-efficient RAG architecture that reduces computation through blocking-based batch retrieval and generation. We also present a unified framework for analyzing and evaluating RAG systems for entity matching, focusing on blocking-aware optimizations and retrieval granularity. Extensive experiments suggest that CE-RAG4EM can achieve comparable or improved matching quality while substantially reducing end-to-end runtime relative to strong baselines. Our analysis further reveals that key configuration parameters introduce an inherent trade-off between performance and overhead, offering practical guidance for designing efficient and scalable RAG systems for entity matching and data integration.