Un Sistema di Generazione Aumentata con Recupero Decentralizzato con Affidabilità delle Fonti Garantita su Blockchain
A Decentralized Retrieval Augmented Generation System with Source Reliabilities Secured on Blockchain
November 10, 2025
Autori: Yining Lu, Wenyi Tang, Max Johnson, Taeho Jung, Meng Jiang
cs.AI
Abstract
Gli attuali sistemi di generazione aumentata per recupero informazioni (RAG) adottano generalmente un'architettura centralizzata, comportando elevati costi di raccolta, integrazione e gestione dei dati, oltre a preoccupazioni relative alla privacy. Si avverte pertanto la forte necessità di un sistema RAG decentralizzato che consenta ai modelli di base di utilizzare informazioni direttamente dai proprietari dei dati, i quali mantengono il controllo completo sulle proprie fonti. Tuttavia, la decentralizzazione presenta una sfida: le numerose fonti dati indipendenti presentano un'affidabilità estremamente variabile, che può compromettere l'accuratezza del recupero e la qualità delle risposte. Per affrontare questo problema, il nostro sistema RAG decentralizzato integra un innovativo meccanismo di punteggio dell'affidabilità che valuta dinamicamente ciascuna fonte in base alla qualità delle risposte da essa fornite, privilegiando le fonti di alta qualità durante il recupero. Per garantire trasparenza e fiducia, il processo di valutazione è gestito in modo sicuro attraverso smart contract basati su blockchain, creando record di affidabilità verificabili e a prova di manomissione senza dipendere da un'autorità centrale. Abbiamo valutato il nostro sistema decentralizzato con due modelli Llama (3B e 8B) in due ambienti simulati dove sei fonti dati presentano diversi livelli di affidabilità. Il nostro sistema raggiunge un miglioramento prestazionale del +10,7% rispetto alla controparte centralizzata in ambienti dati non affidabili simili a scenari reali. Significativamente, si avvicina alle prestazioni massime dei sistemi centralizzati in ambienti dati idealmente affidabili. L'infrastruttura decentralizzata consente una gestione sicura e affidabile del punteggio, ottenendo un risparmio di costo marginale di circa il 56% attraverso operazioni di aggiornamento in batch. Il nostro codice e sistema sono open-source su github.com/yining610/Reliable-dRAG.
English
Existing retrieval-augmented generation (RAG) systems typically use a centralized architecture, causing a high cost of data collection, integration, and management, as well as privacy concerns. There is a great need for a decentralized RAG system that enables foundation models to utilize information directly from data owners who maintain full control over their sources. However, decentralization brings a challenge: the numerous independent data sources vary significantly in reliability, which can diminish retrieval accuracy and response quality. To address this, our decentralized RAG system has a novel reliability scoring mechanism that dynamically evaluates each source based on the quality of responses it contributes to generate and prioritizes high-quality sources during retrieval. To ensure transparency and trust, the scoring process is securely managed through blockchain-based smart contracts, creating verifiable and tamper-proof reliability records without relying on a central authority. We evaluate our decentralized system with two Llama models (3B and 8B) in two simulated environments where six data sources have different levels of reliability. Our system achieves a +10.7\% performance improvement over its centralized counterpart in the real world-like unreliable data environments. Notably, it approaches the upper-bound performance of centralized systems under ideally reliable data environments. The decentralized infrastructure enables secure and trustworthy scoring management, achieving approximately 56\% marginal cost savings through batched update operations. Our code and system are open-sourced at github.com/yining610/Reliable-dRAG.