Um Sistema de Geração Aumentada por Recuperação Descentralizado com Confiabilidades de Fontes Garantidas em Blockchain
A Decentralized Retrieval Augmented Generation System with Source Reliabilities Secured on Blockchain
November 10, 2025
Autores: Yining Lu, Wenyi Tang, Max Johnson, Taeho Jung, Meng Jiang
cs.AI
Resumo
Os sistemas atuais de geração aumentada por recuperação (RAG) geralmente utilizam uma arquitetura centralizada, o que acarreta alto custo na coleta, integração e gestão de dados, além de preocupações com a privacidade. Há uma grande necessidade de um sistema RAG descentralizado que permita aos modelos de base utilizar informações diretamente dos proprietários de dados, que mantêm controle total sobre suas fontes. No entanto, a descentralização traz um desafio: as numerosas fontes de dados independentes variam significativamente em confiabilidade, o que pode diminuir a precisão da recuperação e a qualidade das respostas. Para resolver isso, nosso sistema RAG descentralizado possui um mecanismo inovador de pontuação de confiabilidade que avalia dinamicamente cada fonte com base na qualidade das respostas que contribui para a geração e prioriza fontes de alta qualidade durante a recuperação. Para garantir transparência e confiança, o processo de pontuação é gerido com segurança através de contratos inteligentes baseados em blockchain, criando registros de confiabilidade verificáveis e invioláveis sem depender de uma autoridade central. Avaliamos nosso sistema descentralizado com dois modelos Llama (3B e 8B) em dois ambientes simulados onde seis fontes de dados possuem diferentes níveis de confiabilidade. Nosso sistema alcança uma melhoria de desempenho de +10,7% em relação à sua contraparte centralizada em ambientes de dados não confiáveis semelhantes ao mundo real. Notavelmente, aproxima-se do desempenho máximo dos sistemas centralizados em ambientes de dados idealmente confiáveis. A infraestrutura descentralizada permite uma gestão segura e confiável da pontuação, alcançando aproximadamente 56% de economia de custos marginais através de operações de atualização em lote. Nosso código e sistema são de código aberto em github.com/yining610/Reliable-dRAG.
English
Existing retrieval-augmented generation (RAG) systems typically use a centralized architecture, causing a high cost of data collection, integration, and management, as well as privacy concerns. There is a great need for a decentralized RAG system that enables foundation models to utilize information directly from data owners who maintain full control over their sources. However, decentralization brings a challenge: the numerous independent data sources vary significantly in reliability, which can diminish retrieval accuracy and response quality. To address this, our decentralized RAG system has a novel reliability scoring mechanism that dynamically evaluates each source based on the quality of responses it contributes to generate and prioritizes high-quality sources during retrieval. To ensure transparency and trust, the scoring process is securely managed through blockchain-based smart contracts, creating verifiable and tamper-proof reliability records without relying on a central authority. We evaluate our decentralized system with two Llama models (3B and 8B) in two simulated environments where six data sources have different levels of reliability. Our system achieves a +10.7\% performance improvement over its centralized counterpart in the real world-like unreliable data environments. Notably, it approaches the upper-bound performance of centralized systems under ideally reliable data environments. The decentralized infrastructure enables secure and trustworthy scoring management, achieving approximately 56\% marginal cost savings through batched update operations. Our code and system are open-sourced at github.com/yining610/Reliable-dRAG.