Децентрализованная система поискового расширенного порождения с надежностью источников, защищенной на блокчейне
A Decentralized Retrieval Augmented Generation System with Source Reliabilities Secured on Blockchain
November 10, 2025
Авторы: Yining Lu, Wenyi Tang, Max Johnson, Taeho Jung, Meng Jiang
cs.AI
Аннотация
Существующие системы поисково-дополненной генерации (RAG) обычно используют централизованную архитектуру, что приводит к высоким затратам на сбор, интеграцию и управление данными, а также вызывает проблемы конфиденциальности. Существует острая потребность в децентрализованной системе RAG, которая позволяет базовым моделям напрямую использовать информацию от владельцев данных, сохраняющих полный контроль над своими источниками. Однако децентрализация создает проблему: многочисленные независимые источники данных значительно различаются по надежности, что может снижать точность поиска и качество ответов. Для решения этой проблемы наша децентрализованная система RAG включает новый механизм оценки надежности, который динамически оценивает каждый источник на основе качества предоставляемых им ответов и отдает приоритет высококачественным источникам при поиске. Для обеспечения прозрачности и доверия процесс оценки безопасно управляется через смарт-контракты на блокчейне, создавая проверяемые и защищенные от несанкционированного изменения записи надежности без reliance на центральный орган. Мы оценили нашу децентрализованную систему с двумя моделями Llama (3B и 8B) в двух имитационных средах, где шесть источников данных имели разный уровень надежности. Наша система демонстрирует улучшение производительности на +10,7% по сравнению с централизованным аналогом в условиях ненадежных данных, приближенных к реальным. Примечательно, что она приближается к предельной производительности централизованных систем в условиях идеально надежных данных. Децентрализованная инфраструктура обеспечивает безопасное и достоверное управление оценками, достигая примерно 56% экономии предельных затрат благодаря пакетным операциям обновления. Наш код и система имеют открытый исходный код на github.com/yining610/Reliable-dRAG.
English
Existing retrieval-augmented generation (RAG) systems typically use a centralized architecture, causing a high cost of data collection, integration, and management, as well as privacy concerns. There is a great need for a decentralized RAG system that enables foundation models to utilize information directly from data owners who maintain full control over their sources. However, decentralization brings a challenge: the numerous independent data sources vary significantly in reliability, which can diminish retrieval accuracy and response quality. To address this, our decentralized RAG system has a novel reliability scoring mechanism that dynamically evaluates each source based on the quality of responses it contributes to generate and prioritizes high-quality sources during retrieval. To ensure transparency and trust, the scoring process is securely managed through blockchain-based smart contracts, creating verifiable and tamper-proof reliability records without relying on a central authority. We evaluate our decentralized system with two Llama models (3B and 8B) in two simulated environments where six data sources have different levels of reliability. Our system achieves a +10.7\% performance improvement over its centralized counterpart in the real world-like unreliable data environments. Notably, it approaches the upper-bound performance of centralized systems under ideally reliable data environments. The decentralized infrastructure enables secure and trustworthy scoring management, achieving approximately 56\% marginal cost savings through batched update operations. Our code and system are open-sourced at github.com/yining610/Reliable-dRAG.