RAG-Anything: Framework RAG Tudo-em-Um
RAG-Anything: All-in-One RAG Framework
October 14, 2025
Autores: Zirui Guo, Xubin Ren, Lingrui Xu, Jiahao Zhang, Chao Huang
cs.AI
Resumo
A Geração Aumentada por Recuperação (RAG, do inglês *Retrieval-Augmented Generation*) emergiu como um paradigma fundamental para expandir os Modelos de Linguagem de Grande Escala além de suas limitações estáticas de treinamento. No entanto, existe um desalinhamento crítico entre as capacidades atuais do RAG e os ambientes de informação do mundo real. Os repositórios de conhecimento modernos são inerentemente multimodais, contendo combinações ricas de conteúdo textual, elementos visuais, tabelas estruturadas e expressões matemáticas. Ainda assim, os frameworks de RAG existentes são limitados ao conteúdo textual, criando lacunas fundamentais ao processar documentos multimodais. Apresentamos o RAG-Anything, um framework unificado que permite a recuperação abrangente de conhecimento em todas as modalidades. Nossa abordagem reconceitualiza o conteúdo multimodal como entidades de conhecimento interconectadas, em vez de tipos de dados isolados. O framework introduz a construção de grafos duais para capturar tanto as relações cruzadas entre modalidades quanto a semântica textual em uma representação unificada. Desenvolvemos uma recuperação híbrida cruzada que combina navegação estrutural de conhecimento com correspondência semântica. Isso permite um raciocínio eficaz sobre conteúdo heterogêneo, onde evidências relevantes abrangem múltiplas modalidades. O RAG-Anything demonstra desempenho superior em benchmarks multimodais desafiadores, alcançando melhorias significativas em relação aos métodos state-of-the-art. Os ganhos de desempenho tornam-se particularmente evidentes em documentos longos, onde abordagens tradicionais falham. Nosso framework estabelece um novo paradigma para o acesso ao conhecimento multimodal, eliminando a fragmentação arquitetônica que restringe os sistemas atuais. Nosso framework é disponibilizado como código aberto em: https://github.com/HKUDS/RAG-Anything.
English
Retrieval-Augmented Generation (RAG) has emerged as a fundamental paradigm
for expanding Large Language Models beyond their static training limitations.
However, a critical misalignment exists between current RAG capabilities and
real-world information environments. Modern knowledge repositories are
inherently multimodal, containing rich combinations of textual content, visual
elements, structured tables, and mathematical expressions. Yet existing RAG
frameworks are limited to textual content, creating fundamental gaps when
processing multimodal documents. We present RAG-Anything, a unified framework
that enables comprehensive knowledge retrieval across all modalities. Our
approach reconceptualizes multimodal content as interconnected knowledge
entities rather than isolated data types. The framework introduces dual-graph
construction to capture both cross-modal relationships and textual semantics
within a unified representation. We develop cross-modal hybrid retrieval that
combines structural knowledge navigation with semantic matching. This enables
effective reasoning over heterogeneous content where relevant evidence spans
multiple modalities. RAG-Anything demonstrates superior performance on
challenging multimodal benchmarks, achieving significant improvements over
state-of-the-art methods. Performance gains become particularly pronounced on
long documents where traditional approaches fail. Our framework establishes a
new paradigm for multimodal knowledge access, eliminating the architectural
fragmentation that constrains current systems. Our framework is open-sourced
at: https://github.com/HKUDS/RAG-Anything.