블록체인에 출처 신뢰성을 확보한 분산형 검색 증강 생성 시스템
A Decentralized Retrieval Augmented Generation System with Source Reliabilities Secured on Blockchain
November 10, 2025
저자: Yining Lu, Wenyi Tang, Max Johnson, Taeho Jung, Meng Jiang
cs.AI
초록
기존 검색 증강 생성(RAG) 시스템은 일반적으로 중앙 집중식 아키텍처를 사용하여 데이터 수집, 통합 및 관리 비용이 높고 개인정보 보호 문제가 발생합니다. 따라서 데이터 소유자가 자신의 소스를 완전히 통제하면서도 기초 모델이 해당 정보를 직접 활용할 수 있는 분산형 RAG 시스템에 대한 필요성이 큽니다. 그러나 분산화는 신뢰도가 크게 다른 수많은 독립 데이터 소스로 인해 검색 정확도와 응답 품질이 저하될 수 있는 과제를 안고 있습니다. 이를 해결하기 위해 본 논문의 분산형 RAG 시스템은 각 소스가 생성에 기여한 응답 품질을 기반으로 동적으로 평가하고 검색 시 고품질 소스를 우선순위화하는 새로운 신뢰도 점수 매커니즘을 갖추고 있습니다. 투명성과 신뢰를 보장하기 위해 점수 산정 과정은 블록체인 기반 스마트 계약을 통해 안전하게 관리되며, 중앙 기관에 의존하지 않고 검증 가능하고 위변조가 불가능한 신뢰도 기록을 생성합니다. 우리는 두 개의 Llama 모델(3B, 8B)과 신뢰도 수준이 다른 6개의 데이터 소스를 가진 두 가지 시뮬레이션 환경에서 분산형 시스템을 평가했습니다. 우리 시스템은 실제와 유사한 신뢰할 수 없는 데이터 환경에서 중앙 집중식 시스템 대비 +10.7%의 성능 향상을 달성했습니다. 특히 이상적으로 신뢰할 수 있는 데이터 환경에서는 중앙 집중식 시스템의 상한선 성능에 근접했습니다. 분산형 인프라는 안전하고 신뢰할 수 있는 점수 관리를 가능하게 하며, 일괄 업데이트 작업을 통해 약 56%의 한계 비용 절감을 달성했습니다. 우리의 코드와 시스템은 github.com/yining610/Reliable-dRAG에서 오픈소스로 공개되었습니다.
English
Existing retrieval-augmented generation (RAG) systems typically use a centralized architecture, causing a high cost of data collection, integration, and management, as well as privacy concerns. There is a great need for a decentralized RAG system that enables foundation models to utilize information directly from data owners who maintain full control over their sources. However, decentralization brings a challenge: the numerous independent data sources vary significantly in reliability, which can diminish retrieval accuracy and response quality. To address this, our decentralized RAG system has a novel reliability scoring mechanism that dynamically evaluates each source based on the quality of responses it contributes to generate and prioritizes high-quality sources during retrieval. To ensure transparency and trust, the scoring process is securely managed through blockchain-based smart contracts, creating verifiable and tamper-proof reliability records without relying on a central authority. We evaluate our decentralized system with two Llama models (3B and 8B) in two simulated environments where six data sources have different levels of reliability. Our system achieves a +10.7\% performance improvement over its centralized counterpart in the real world-like unreliable data environments. Notably, it approaches the upper-bound performance of centralized systems under ideally reliable data environments. The decentralized infrastructure enables secure and trustworthy scoring management, achieving approximately 56\% marginal cost savings through batched update operations. Our code and system are open-sourced at github.com/yining610/Reliable-dRAG.