Kostenefficiënte RAG voor Entiteitskoppeling met LLM's: Een Verkenning Gebaseerd op Blocking

Samenvatting

Retrieval-augmented generation (RAG) verbetert het redeneervermogen van grote taalmodel(len) bij kennisintensieve taken, maar bestaande RAG-pipelines veroorzaken aanzienlijke retrieval- en generatie-overhead wanneer ze worden toegepast op grootschalige entiteitskoppeling. Om deze beperking aan te pakken, introduceren wij CE-RAG4EM, een kostenefficiënte RAG-architectuur die de rekenkosten reduceert via blocking-gebaseerde batch-retrieval en -generatie. Wij presenteren tevens een uniform raamwerk voor het analyseren en evalueren van RAG-systemen voor entiteitskoppeling, met focus op blocking-aware optimalisaties en retrieval-granulariteit. Uitgebreide experimenten tonen aan dat CE-RAG4EM vergelijkbare of verbeterde koppelingskwaliteit kan bereiken, terwijl de end-to-end looptijd aanzienlijk wordt verkort ten opzichte van sterke baseline(s). Onze analyse onthult verder dat cruciale configuratieparameters een inherente afweging introduceren tussen prestaties en overhead, wat praktische richtlijnen biedt voor het ontwerpen van efficiënte en schaalbare RAG-systemen voor entiteitskoppeling en gegevensintegratie.

English

Retrieval-augmented generation (RAG) enhances LLM reasoning in knowledge-intensive tasks, but existing RAG pipelines incur substantial retrieval and generation overhead when applied to large-scale entity matching. To address this limitation, we introduce CE-RAG4EM, a cost-efficient RAG architecture that reduces computation through blocking-based batch retrieval and generation. We also present a unified framework for analyzing and evaluating RAG systems for entity matching, focusing on blocking-aware optimizations and retrieval granularity. Extensive experiments suggest that CE-RAG4EM can achieve comparable or improved matching quality while substantially reducing end-to-end runtime relative to strong baselines. Our analysis further reveals that key configuration parameters introduce an inherent trade-off between performance and overhead, offering practical guidance for designing efficient and scalable RAG systems for entity matching and data integration.

Kostenefficiënte RAG voor Entiteitskoppeling met LLM's: Een Verkenning Gebaseerd op Blocking

Cost-Efficient RAG for Entity Matching with LLMs: A Blocking-based Exploration

Samenvatting

Support