Ein dezentrales Retrieval-Augmented-Generation-System mit auf Blockchain gesicherten Quellenzuverlässigkeiten
A Decentralized Retrieval Augmented Generation System with Source Reliabilities Secured on Blockchain
November 10, 2025
papers.authors: Yining Lu, Wenyi Tang, Max Johnson, Taeho Jung, Meng Jiang
cs.AI
papers.abstract
Bestehende retrieval-augmentierte Generationssysteme (RAG) verwenden typischerweise eine zentralisierte Architektur, was hohe Kosten für Datensammlung, Integration und Verwaltung sowie Datenschutzbedenken verursacht. Es besteht ein großer Bedarf an einem dezentralen RAG-System, das Grundmodelle in die Lage versetzt, Informationen direkt von Datenbesitzern zu nutzen, die die volle Kontrolle über ihre Quellen behalten. Dezentralisierung bringt jedoch eine Herausforderung mit sich: Die zahlreichen unabhängigen Datenquellen variieren erheblich in ihrer Zuverlässigkeit, was die Abrufgenauigkeit und Antwortqualität beeinträchtigen kann. Um dies zu adressieren, verfügt unser dezentrales RAG-System über einen neuartigen Zuverlässigkeitsbewertungsmechanismus, der jede Quelle dynamisch anhand der Qualität ihrer Antwortbeiträge bewertet und hochwertige Quellen während des Abrufs priorisiert. Um Transparenz und Vertrauen zu gewährleisten, wird der Bewertungsprozess sicher durch blockchain-basierte Smart Contracts verwaltet, wodurch verifizierbare und fälschungssichere Zuverlässigkeitsaufzeichnungen ohne zentrale Instanz entstehen. Wir evaluieren unser dezentrales System mit zwei Llama-Modellen (3B und 8B) in zwei simulierten Umgebungen, in denen sechs Datenquellen unterschiedliche Zuverlässigkeitsgrade aufweisen. Unser System erzielt eine Leistungssteigerung von +10,7 % gegenüber seinem zentralisierten Gegenstück in realweltähnlichen Umgebungen mit unzuverlässigen Daten. Bemerkenswerterweise nähert es sich der Obergrenzenleistung zentralisierter Systeme unter ideal zuverlässigen Datenbedingungen. Die dezentrale Infrastruktur ermöglicht eine sichere und vertrauenswürdige Bewertungsverwaltung und erzielt durch gebündelte Update-Operationen etwa 56 % marginale Kosteneinsparungen. Unser Code und System sind unter github.com/yining610/Reliable-dRAG quelloffen verfügbar.
English
Existing retrieval-augmented generation (RAG) systems typically use a centralized architecture, causing a high cost of data collection, integration, and management, as well as privacy concerns. There is a great need for a decentralized RAG system that enables foundation models to utilize information directly from data owners who maintain full control over their sources. However, decentralization brings a challenge: the numerous independent data sources vary significantly in reliability, which can diminish retrieval accuracy and response quality. To address this, our decentralized RAG system has a novel reliability scoring mechanism that dynamically evaluates each source based on the quality of responses it contributes to generate and prioritizes high-quality sources during retrieval. To ensure transparency and trust, the scoring process is securely managed through blockchain-based smart contracts, creating verifiable and tamper-proof reliability records without relying on a central authority. We evaluate our decentralized system with two Llama models (3B and 8B) in two simulated environments where six data sources have different levels of reliability. Our system achieves a +10.7\% performance improvement over its centralized counterpart in the real world-like unreliable data environments. Notably, it approaches the upper-bound performance of centralized systems under ideally reliable data environments. The decentralized infrastructure enables secure and trustworthy scoring management, achieving approximately 56\% marginal cost savings through batched update operations. Our code and system are open-sourced at github.com/yining610/Reliable-dRAG.