RAG-Anything: Marco Integral de RAG Todo en Uno
RAG-Anything: All-in-One RAG Framework
October 14, 2025
Autores: Zirui Guo, Xubin Ren, Lingrui Xu, Jiahao Zhang, Chao Huang
cs.AI
Resumen
La Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) ha surgido como un paradigma fundamental para expandir los Modelos de Lenguaje de Gran Escala más allá de sus limitaciones de entrenamiento estático. Sin embargo, existe una desalineación crítica entre las capacidades actuales de RAG y los entornos de información del mundo real. Los repositorios de conocimiento modernos son inherentemente multimodales, conteniendo combinaciones ricas de contenido textual, elementos visuales, tablas estructuradas y expresiones matemáticas. No obstante, los marcos de trabajo RAG existentes se limitan al contenido textual, creando brechas fundamentales al procesar documentos multimodales. Presentamos RAG-Anything, un marco unificado que permite la recuperación integral de conocimiento a través de todas las modalidades. Nuestro enfoque reconceptualiza el contenido multimodal como entidades de conocimiento interconectadas en lugar de tipos de datos aislados. El marco introduce la construcción de grafos duales para capturar tanto las relaciones intermodales como la semántica textual dentro de una representación unificada. Desarrollamos una recuperación híbrida intermodal que combina la navegación de conocimiento estructural con la coincidencia semántica. Esto permite un razonamiento efectivo sobre contenido heterogéneo donde la evidencia relevante abarca múltiples modalidades. RAG-Anything demuestra un rendimiento superior en puntos de referencia multimodales desafiantes, logrando mejoras significativas sobre los métodos más avanzados. Las ganancias de rendimiento se vuelven particularmente pronunciadas en documentos largos donde los enfoques tradicionales fallan. Nuestro marco establece un nuevo paradigma para el acceso multimodal al conocimiento, eliminando la fragmentación arquitectónica que limita los sistemas actuales. Nuestro marco es de código abierto en: https://github.com/HKUDS/RAG-Anything.
English
Retrieval-Augmented Generation (RAG) has emerged as a fundamental paradigm
for expanding Large Language Models beyond their static training limitations.
However, a critical misalignment exists between current RAG capabilities and
real-world information environments. Modern knowledge repositories are
inherently multimodal, containing rich combinations of textual content, visual
elements, structured tables, and mathematical expressions. Yet existing RAG
frameworks are limited to textual content, creating fundamental gaps when
processing multimodal documents. We present RAG-Anything, a unified framework
that enables comprehensive knowledge retrieval across all modalities. Our
approach reconceptualizes multimodal content as interconnected knowledge
entities rather than isolated data types. The framework introduces dual-graph
construction to capture both cross-modal relationships and textual semantics
within a unified representation. We develop cross-modal hybrid retrieval that
combines structural knowledge navigation with semantic matching. This enables
effective reasoning over heterogeneous content where relevant evidence spans
multiple modalities. RAG-Anything demonstrates superior performance on
challenging multimodal benchmarks, achieving significant improvements over
state-of-the-art methods. Performance gains become particularly pronounced on
long documents where traditional approaches fail. Our framework establishes a
new paradigm for multimodal knowledge access, eliminating the architectural
fragmentation that constrains current systems. Our framework is open-sourced
at: https://github.com/HKUDS/RAG-Anything.