RAG-Anything: Framework RAG Tudo-em-Um

Resumo

A Geração Aumentada por Recuperação (RAG, do inglês *Retrieval-Augmented Generation*) emergiu como um paradigma fundamental para expandir os Modelos de Linguagem de Grande Escala além de suas limitações estáticas de treinamento. No entanto, existe um desalinhamento crítico entre as capacidades atuais do RAG e os ambientes de informação do mundo real. Os repositórios de conhecimento modernos são inerentemente multimodais, contendo combinações ricas de conteúdo textual, elementos visuais, tabelas estruturadas e expressões matemáticas. Ainda assim, os frameworks de RAG existentes são limitados ao conteúdo textual, criando lacunas fundamentais ao processar documentos multimodais. Apresentamos o RAG-Anything, um framework unificado que permite a recuperação abrangente de conhecimento em todas as modalidades. Nossa abordagem reconceitualiza o conteúdo multimodal como entidades de conhecimento interconectadas, em vez de tipos de dados isolados. O framework introduz a construção de grafos duais para capturar tanto as relações cruzadas entre modalidades quanto a semântica textual em uma representação unificada. Desenvolvemos uma recuperação híbrida cruzada que combina navegação estrutural de conhecimento com correspondência semântica. Isso permite um raciocínio eficaz sobre conteúdo heterogêneo, onde evidências relevantes abrangem múltiplas modalidades. O RAG-Anything demonstra desempenho superior em benchmarks multimodais desafiadores, alcançando melhorias significativas em relação aos métodos state-of-the-art. Os ganhos de desempenho tornam-se particularmente evidentes em documentos longos, onde abordagens tradicionais falham. Nosso framework estabelece um novo paradigma para o acesso ao conhecimento multimodal, eliminando a fragmentação arquitetônica que restringe os sistemas atuais. Nosso framework é disponibilizado como código aberto em: https://github.com/HKUDS/RAG-Anything.

English

Retrieval-Augmented Generation (RAG) has emerged as a fundamental paradigm for expanding Large Language Models beyond their static training limitations. However, a critical misalignment exists between current RAG capabilities and real-world information environments. Modern knowledge repositories are inherently multimodal, containing rich combinations of textual content, visual elements, structured tables, and mathematical expressions. Yet existing RAG frameworks are limited to textual content, creating fundamental gaps when processing multimodal documents. We present RAG-Anything, a unified framework that enables comprehensive knowledge retrieval across all modalities. Our approach reconceptualizes multimodal content as interconnected knowledge entities rather than isolated data types. The framework introduces dual-graph construction to capture both cross-modal relationships and textual semantics within a unified representation. We develop cross-modal hybrid retrieval that combines structural knowledge navigation with semantic matching. This enables effective reasoning over heterogeneous content where relevant evidence spans multiple modalities. RAG-Anything demonstrates superior performance on challenging multimodal benchmarks, achieving significant improvements over state-of-the-art methods. Performance gains become particularly pronounced on long documents where traditional approaches fail. Our framework establishes a new paradigm for multimodal knowledge access, eliminating the architectural fragmentation that constrains current systems. Our framework is open-sourced at: https://github.com/HKUDS/RAG-Anything.

RAG-Anything: Framework RAG Tudo-em-Um

RAG-Anything: All-in-One RAG Framework

Resumo

Support