ChatPaper.aiChatPaper

Een Gedecentraliseerd Retrieval Augmented Generation-systeem met Bronbetrouwbaarheid Vastgelegd op Blockchain

A Decentralized Retrieval Augmented Generation System with Source Reliabilities Secured on Blockchain

November 10, 2025
Auteurs: Yining Lu, Wenyi Tang, Max Johnson, Taeho Jung, Meng Jiang
cs.AI

Samenvatting

Bestaande retrieval-augmented generation (RAG)-systemen gebruiken doorgaans een gecentraliseerde architectuur, wat leidt tot hoge kosten voor gegevensverzameling, -integratie en -beheer, evenals privacyproblemen. Er is grote behoefte aan een gedecentraliseerd RAG-systeem dat foundationmodellen in staat stelt om informatie rechtstreeks te gebruiken van data-eigenaren die volledige controle over hun bronnen behouden. Decentralisatie brengt echter een uitdaging met zich mee: de talloze onafhankelijke gegevensbronnen verschillen aanzienlijk in betrouwbaarheid, wat de retrievalsnelheid en responstijd kan verminderen. Om dit aan te pakken, heeft ons gedecentraliseerde RAG-systeem een nieuwe betrouwbaarheidsscoringsmechanisme dat elke bron dynamisch evalueert op basis van de kwaliteit van de antwoorden die het bijdraagt, en dat hoogwaardige bronnen prioriteert tijdens het ophalen. Om transparantie en vertrouwen te waarborgen, wordt het scoringsproces veilig beheerd via blockchain-gebaseerde smart contracts, waardoor verifieerbare en onvervalsbare betrouwbaarheidsregistraties ontstaan zonder afhankelijkheid van een centrale autoriteit. We evalueren ons gedecentraliseerde systeem met twee Llama-modellen (3B en 8B) in twee gesimuleerde omgevingen waar zes gegevensbronnen verschillende betrouwbaarheidsniveaus hebben. Ons systeem behaalt een prestatieverbetering van +10,7% ten opzichte van zijn gecentraliseerde tegenhanger in realistische, onbetrouwbare gegevensomgevingen. Opmerkelijk is dat het de bovenste prestatiegrens van gecentraliseerde systemen benadert onder ideale, betrouwbare gegevensomgevingen. De gedecentraliseerde infrastructuur maakt veilig en betrouwbaar scoringsbeheer mogelijk, wat ongeveer 56% marginale kostenbesparing oplevert door gebatchte updateoperaties. Onze code en systeem zijn open source beschikbaar op github.com/yining610/Reliable-dRAG.
English
Existing retrieval-augmented generation (RAG) systems typically use a centralized architecture, causing a high cost of data collection, integration, and management, as well as privacy concerns. There is a great need for a decentralized RAG system that enables foundation models to utilize information directly from data owners who maintain full control over their sources. However, decentralization brings a challenge: the numerous independent data sources vary significantly in reliability, which can diminish retrieval accuracy and response quality. To address this, our decentralized RAG system has a novel reliability scoring mechanism that dynamically evaluates each source based on the quality of responses it contributes to generate and prioritizes high-quality sources during retrieval. To ensure transparency and trust, the scoring process is securely managed through blockchain-based smart contracts, creating verifiable and tamper-proof reliability records without relying on a central authority. We evaluate our decentralized system with two Llama models (3B and 8B) in two simulated environments where six data sources have different levels of reliability. Our system achieves a +10.7\% performance improvement over its centralized counterpart in the real world-like unreliable data environments. Notably, it approaches the upper-bound performance of centralized systems under ideally reliable data environments. The decentralized infrastructure enables secure and trustworthy scoring management, achieving approximately 56\% marginal cost savings through batched update operations. Our code and system are open-sourced at github.com/yining610/Reliable-dRAG.
PDF12December 1, 2025