ブロックチェーン上で信頼性情報を保護した分散型検索拡張生成システム
A Decentralized Retrieval Augmented Generation System with Source Reliabilities Secured on Blockchain
November 10, 2025
著者: Yining Lu, Wenyi Tang, Max Johnson, Taeho Jung, Meng Jiang
cs.AI
要旨
既存の検索拡張生成(RAG)システムは、通常、集中型アーキテクチャを採用している。これにより、データ収集・統合・管理のコストが高くなるだけでなく、プライバシー上の懸念も生じている。データ提供元が完全な管理権限を維持したまま、基盤モデルが直接情報を活用できる分散型RAGシステムが強く求められている。しかし、分散化には課題がある。多数の独立したデータソースは信頼性が大きく異なり、検索精度や応答品質の低下を招く可能性がある。この問題に対処するため、我々の分散型RAGシステムは、応答生成への貢献度に基づいて各ソースの信頼性を動的に評価し、検索時に高品質なソースを優先する新たな信頼性スコアリング機構を備えている。透明性と信頼性を確保するため、スコアリングプロセスはブロックチェーン基盤のスマートコントラクトにより安全に管理され、中央機関に依存することなく検証可能で改ざん防止された信頼性記録を生成する。我々は2つのLlamaモデル(3Bおよび8B)を用い、6つのデータソースが異なる信頼性レベルを持つ2種類のシミュレーション環境で分散型システムを評価した。本システムは、実世界に近い信頼性の低いデータ環境において、集中型システムを10.7%上回る性能向上を達成した。特に、理想的な信頼性のデータ環境下では、集中型システムの上限性能に迫る結果を示した。分散型インフラは安全で信頼性の高いスコアリング管理を実現し、バッチ更新処理により約56%の限界コスト削減を達成している。コードとシステムはgithub.com/yining610/Reliable-dRAGで公開している。
English
Existing retrieval-augmented generation (RAG) systems typically use a centralized architecture, causing a high cost of data collection, integration, and management, as well as privacy concerns. There is a great need for a decentralized RAG system that enables foundation models to utilize information directly from data owners who maintain full control over their sources. However, decentralization brings a challenge: the numerous independent data sources vary significantly in reliability, which can diminish retrieval accuracy and response quality. To address this, our decentralized RAG system has a novel reliability scoring mechanism that dynamically evaluates each source based on the quality of responses it contributes to generate and prioritizes high-quality sources during retrieval. To ensure transparency and trust, the scoring process is securely managed through blockchain-based smart contracts, creating verifiable and tamper-proof reliability records without relying on a central authority. We evaluate our decentralized system with two Llama models (3B and 8B) in two simulated environments where six data sources have different levels of reliability. Our system achieves a +10.7\% performance improvement over its centralized counterpart in the real world-like unreliable data environments. Notably, it approaches the upper-bound performance of centralized systems under ideally reliable data environments. The decentralized infrastructure enables secure and trustworthy scoring management, achieving approximately 56\% marginal cost savings through batched update operations. Our code and system are open-sourced at github.com/yining610/Reliable-dRAG.