RAG-Anything: Marco Integral de RAG Todo en Uno

Resumen

La Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) ha surgido como un paradigma fundamental para expandir los Modelos de Lenguaje de Gran Escala más allá de sus limitaciones de entrenamiento estático. Sin embargo, existe una desalineación crítica entre las capacidades actuales de RAG y los entornos de información del mundo real. Los repositorios de conocimiento modernos son inherentemente multimodales, conteniendo combinaciones ricas de contenido textual, elementos visuales, tablas estructuradas y expresiones matemáticas. No obstante, los marcos de trabajo RAG existentes se limitan al contenido textual, creando brechas fundamentales al procesar documentos multimodales. Presentamos RAG-Anything, un marco unificado que permite la recuperación integral de conocimiento a través de todas las modalidades. Nuestro enfoque reconceptualiza el contenido multimodal como entidades de conocimiento interconectadas en lugar de tipos de datos aislados. El marco introduce la construcción de grafos duales para capturar tanto las relaciones intermodales como la semántica textual dentro de una representación unificada. Desarrollamos una recuperación híbrida intermodal que combina la navegación de conocimiento estructural con la coincidencia semántica. Esto permite un razonamiento efectivo sobre contenido heterogéneo donde la evidencia relevante abarca múltiples modalidades. RAG-Anything demuestra un rendimiento superior en puntos de referencia multimodales desafiantes, logrando mejoras significativas sobre los métodos más avanzados. Las ganancias de rendimiento se vuelven particularmente pronunciadas en documentos largos donde los enfoques tradicionales fallan. Nuestro marco establece un nuevo paradigma para el acceso multimodal al conocimiento, eliminando la fragmentación arquitectónica que limita los sistemas actuales. Nuestro marco es de código abierto en: https://github.com/HKUDS/RAG-Anything.

English

Retrieval-Augmented Generation (RAG) has emerged as a fundamental paradigm for expanding Large Language Models beyond their static training limitations. However, a critical misalignment exists between current RAG capabilities and real-world information environments. Modern knowledge repositories are inherently multimodal, containing rich combinations of textual content, visual elements, structured tables, and mathematical expressions. Yet existing RAG frameworks are limited to textual content, creating fundamental gaps when processing multimodal documents. We present RAG-Anything, a unified framework that enables comprehensive knowledge retrieval across all modalities. Our approach reconceptualizes multimodal content as interconnected knowledge entities rather than isolated data types. The framework introduces dual-graph construction to capture both cross-modal relationships and textual semantics within a unified representation. We develop cross-modal hybrid retrieval that combines structural knowledge navigation with semantic matching. This enables effective reasoning over heterogeneous content where relevant evidence spans multiple modalities. RAG-Anything demonstrates superior performance on challenging multimodal benchmarks, achieving significant improvements over state-of-the-art methods. Performance gains become particularly pronounced on long documents where traditional approaches fail. Our framework establishes a new paradigm for multimodal knowledge access, eliminating the architectural fragmentation that constrains current systems. Our framework is open-sourced at: https://github.com/HKUDS/RAG-Anything.

RAG-Anything: Marco Integral de RAG Todo en Uno

RAG-Anything: All-in-One RAG Framework

Resumen

Support