RAG-Anything: Framework RAG Tutto-in-Uno
RAG-Anything: All-in-One RAG Framework
October 14, 2025
Autori: Zirui Guo, Xubin Ren, Lingrui Xu, Jiahao Zhang, Chao Huang
cs.AI
Abstract
La Generazione Aumentata dal Recupero (RAG) è emersa come un paradigma fondamentale per espandere i Modelli Linguistici di Grande Scala oltre i limiti del loro addestramento statico. Tuttavia, esiste un disallineamento critico tra le attuali capacità di RAG e gli ambienti informativi del mondo reale. I moderni repository di conoscenza sono intrinsecamente multimodali, contenendo ricche combinazioni di contenuti testuali, elementi visivi, tabelle strutturate ed espressioni matematiche. Tuttavia, gli attuali framework RAG sono limitati ai contenuti testuali, creando lacune fondamentali durante l'elaborazione di documenti multimodali. Presentiamo RAG-Anything, un framework unificato che abilita il recupero completo della conoscenza attraverso tutte le modalità. Il nostro approccio riconcettualizza i contenuti multimodali come entità di conoscenza interconnesse piuttosto che come tipi di dati isolati. Il framework introduce la costruzione di un doppio grafo per catturare sia le relazioni cross-modali che la semantica testuale all'interno di una rappresentazione unificata. Sviluppiamo un recupero ibrido cross-modale che combina la navigazione strutturale della conoscenza con il matching semantico. Ciò consente un ragionamento efficace su contenuti eterogenei in cui le prove rilevanti si estendono su più modalità. RAG-Anything dimostra prestazioni superiori su benchmark multimodali impegnativi, ottenendo miglioramenti significativi rispetto ai metodi all'avanguardia. I guadagni in termini di prestazioni diventano particolarmente evidenti su documenti lunghi in cui gli approcci tradizionali falliscono. Il nostro framework stabilisce un nuovo paradigma per l'accesso alla conoscenza multimodale, eliminando la frammentazione architetturale che limita i sistemi attuali. Il nostro framework è open-source all'indirizzo: https://github.com/HKUDS/RAG-Anything.
English
Retrieval-Augmented Generation (RAG) has emerged as a fundamental paradigm
for expanding Large Language Models beyond their static training limitations.
However, a critical misalignment exists between current RAG capabilities and
real-world information environments. Modern knowledge repositories are
inherently multimodal, containing rich combinations of textual content, visual
elements, structured tables, and mathematical expressions. Yet existing RAG
frameworks are limited to textual content, creating fundamental gaps when
processing multimodal documents. We present RAG-Anything, a unified framework
that enables comprehensive knowledge retrieval across all modalities. Our
approach reconceptualizes multimodal content as interconnected knowledge
entities rather than isolated data types. The framework introduces dual-graph
construction to capture both cross-modal relationships and textual semantics
within a unified representation. We develop cross-modal hybrid retrieval that
combines structural knowledge navigation with semantic matching. This enables
effective reasoning over heterogeneous content where relevant evidence spans
multiple modalities. RAG-Anything demonstrates superior performance on
challenging multimodal benchmarks, achieving significant improvements over
state-of-the-art methods. Performance gains become particularly pronounced on
long documents where traditional approaches fail. Our framework establishes a
new paradigm for multimodal knowledge access, eliminating the architectural
fragmentation that constrains current systems. Our framework is open-sourced
at: https://github.com/HKUDS/RAG-Anything.