ChatPaper.aiChatPaper

Système Décentralisé de Génération Augmentée par Récupération avec Fiabilités des Sources Garanties par la Blockchain

A Decentralized Retrieval Augmented Generation System with Source Reliabilities Secured on Blockchain

November 10, 2025
papers.authors: Yining Lu, Wenyi Tang, Max Johnson, Taeho Jung, Meng Jiang
cs.AI

papers.abstract

Les systèmes existants de génération augmentée par récupération (RAG) utilisent généralement une architecture centralisée, entraînant un coût élevé de collecte, d'intégration et de gestion des données, ainsi que des préoccupations en matière de vie privée. Il existe un besoin crucial pour un système RAG décentralisé permettant aux modèles de fondation d'utiliser directement les informations des propriétaires de données qui conservent un contrôle total sur leurs sources. Cependant, la décentralisation pose un défi : les nombreuses sources de données indépendantes présentent une fiabilité très variable, ce qui peut réduire la précision de la récupération et la qualité des réponses. Pour y remédier, notre système RAG décentralisé intègre un mécanisme novateur d'évaluation de la fiabilité qui évalue dynamiquement chaque source en fonction de la qualité des réponses qu'elle contribue à générer, et priorise les sources de haute qualité lors de la récupération. Pour garantir la transparence et la confiance, le processus d'évaluation est géré de manière sécurisée via des contrats intelligents basés sur la blockchain, créant des enregistrements de fiabilité vérifiables et inviolables sans dépendre d'une autorité centrale. Nous évaluons notre système décentralisé avec deux modèles Llama (3B et 8B) dans deux environnements simulés où six sources de données présentent différents niveaux de fiabilité. Notre système obtient une amélioration de performance de +10,7 % par rapport à son équivalent centralisé dans des environnements de données peu fiables similaires au monde réel. Fait notable, il approche la performance limite des systèmes centralisés dans des environnements de données idéalement fiables. L'infrastructure décentralisée permet une gestion sécurisée et fiable des scores, réalisant environ 56 % d'économies de coûts marginaux grâce à des opérations de mise à jour groupées. Notre code et notre système sont open-source sur github.com/yining610/Reliable-dRAG.
English
Existing retrieval-augmented generation (RAG) systems typically use a centralized architecture, causing a high cost of data collection, integration, and management, as well as privacy concerns. There is a great need for a decentralized RAG system that enables foundation models to utilize information directly from data owners who maintain full control over their sources. However, decentralization brings a challenge: the numerous independent data sources vary significantly in reliability, which can diminish retrieval accuracy and response quality. To address this, our decentralized RAG system has a novel reliability scoring mechanism that dynamically evaluates each source based on the quality of responses it contributes to generate and prioritizes high-quality sources during retrieval. To ensure transparency and trust, the scoring process is securely managed through blockchain-based smart contracts, creating verifiable and tamper-proof reliability records without relying on a central authority. We evaluate our decentralized system with two Llama models (3B and 8B) in two simulated environments where six data sources have different levels of reliability. Our system achieves a +10.7\% performance improvement over its centralized counterpart in the real world-like unreliable data environments. Notably, it approaches the upper-bound performance of centralized systems under ideally reliable data environments. The decentralized infrastructure enables secure and trustworthy scoring management, achieving approximately 56\% marginal cost savings through batched update operations. Our code and system are open-sourced at github.com/yining610/Reliable-dRAG.
PDF12December 1, 2025