ChatPaper.aiChatPaper

Un Sistema de Generación Aumentada por Recuperación Descentralizado con Fiabilidad de Fuentes Asegurada en Blockchain

A Decentralized Retrieval Augmented Generation System with Source Reliabilities Secured on Blockchain

November 10, 2025
Autores: Yining Lu, Wenyi Tang, Max Johnson, Taeho Jung, Meng Jiang
cs.AI

Resumen

Los sistemas de generación aumentada por recuperación (RAG) existentes suelen utilizar una arquitectura centralizada, lo que genera un alto costo de recopilación, integración y gestión de datos, así como problemas de privacidad. Existe una gran necesidad de un sistema RAG descentralizado que permita a los modelos fundacionales utilizar información directamente de los propietarios de los datos, quienes mantienen el control total sobre sus fuentes. Sin embargo, la descentralización plantea un desafío: las numerosas fuentes de datos independientes varían significativamente en confiabilidad, lo que puede reducir la precisión de la recuperación y la calidad de la respuesta. Para abordar esto, nuestro sistema RAG descentralizado incorpora un novedoso mecanismo de puntuación de confiabilidad que evalúa dinámicamente cada fuente en función de la calidad de las respuestas que contribuye a generar y prioriza las fuentes de alta calidad durante la recuperación. Para garantizar la transparencia y la confianza, el proceso de puntuación se gestiona de forma segura mediante contratos inteligentes basados en blockchain, creando registros de confiabilidad verificables e inalterables sin depender de una autoridad central. Evaluamos nuestro sistema descentralizado con dos modelos Llama (3B y 8B) en dos entornos simulados donde seis fuentes de datos tienen diferentes niveles de confiabilidad. Nuestro sistema logra una mejora de rendimiento del +10.7% sobre su contraparte centralizada en entornos de datos no confiables similares a los del mundo real. Notablemente, se aproxima al rendimiento límite superior de los sistemas centralizados en entornos de datos idealmente confiables. La infraestructura descentralizada permite una gestión de puntuación segura y confiable, logrando aproximadamente un 56% de ahorro en costos marginales mediante operaciones de actualización por lotes. Nuestro código y sistema son de código abierto en github.com/yining610/Reliable-dRAG.
English
Existing retrieval-augmented generation (RAG) systems typically use a centralized architecture, causing a high cost of data collection, integration, and management, as well as privacy concerns. There is a great need for a decentralized RAG system that enables foundation models to utilize information directly from data owners who maintain full control over their sources. However, decentralization brings a challenge: the numerous independent data sources vary significantly in reliability, which can diminish retrieval accuracy and response quality. To address this, our decentralized RAG system has a novel reliability scoring mechanism that dynamically evaluates each source based on the quality of responses it contributes to generate and prioritizes high-quality sources during retrieval. To ensure transparency and trust, the scoring process is securely managed through blockchain-based smart contracts, creating verifiable and tamper-proof reliability records without relying on a central authority. We evaluate our decentralized system with two Llama models (3B and 8B) in two simulated environments where six data sources have different levels of reliability. Our system achieves a +10.7\% performance improvement over its centralized counterpart in the real world-like unreliable data environments. Notably, it approaches the upper-bound performance of centralized systems under ideally reliable data environments. The decentralized infrastructure enables secure and trustworthy scoring management, achieving approximately 56\% marginal cost savings through batched update operations. Our code and system are open-sourced at github.com/yining610/Reliable-dRAG.
PDF12December 1, 2025