RAG-Anything: Framework RAG Tutto-in-Uno

Abstract

La Generazione Aumentata dal Recupero (RAG) è emersa come un paradigma fondamentale per espandere i Modelli Linguistici di Grande Scala oltre i limiti del loro addestramento statico. Tuttavia, esiste un disallineamento critico tra le attuali capacità di RAG e gli ambienti informativi del mondo reale. I moderni repository di conoscenza sono intrinsecamente multimodali, contenendo ricche combinazioni di contenuti testuali, elementi visivi, tabelle strutturate ed espressioni matematiche. Tuttavia, gli attuali framework RAG sono limitati ai contenuti testuali, creando lacune fondamentali durante l'elaborazione di documenti multimodali. Presentiamo RAG-Anything, un framework unificato che abilita il recupero completo della conoscenza attraverso tutte le modalità. Il nostro approccio riconcettualizza i contenuti multimodali come entità di conoscenza interconnesse piuttosto che come tipi di dati isolati. Il framework introduce la costruzione di un doppio grafo per catturare sia le relazioni cross-modali che la semantica testuale all'interno di una rappresentazione unificata. Sviluppiamo un recupero ibrido cross-modale che combina la navigazione strutturale della conoscenza con il matching semantico. Ciò consente un ragionamento efficace su contenuti eterogenei in cui le prove rilevanti si estendono su più modalità. RAG-Anything dimostra prestazioni superiori su benchmark multimodali impegnativi, ottenendo miglioramenti significativi rispetto ai metodi all'avanguardia. I guadagni in termini di prestazioni diventano particolarmente evidenti su documenti lunghi in cui gli approcci tradizionali falliscono. Il nostro framework stabilisce un nuovo paradigma per l'accesso alla conoscenza multimodale, eliminando la frammentazione architetturale che limita i sistemi attuali. Il nostro framework è open-source all'indirizzo: https://github.com/HKUDS/RAG-Anything.

English

Retrieval-Augmented Generation (RAG) has emerged as a fundamental paradigm for expanding Large Language Models beyond their static training limitations. However, a critical misalignment exists between current RAG capabilities and real-world information environments. Modern knowledge repositories are inherently multimodal, containing rich combinations of textual content, visual elements, structured tables, and mathematical expressions. Yet existing RAG frameworks are limited to textual content, creating fundamental gaps when processing multimodal documents. We present RAG-Anything, a unified framework that enables comprehensive knowledge retrieval across all modalities. Our approach reconceptualizes multimodal content as interconnected knowledge entities rather than isolated data types. The framework introduces dual-graph construction to capture both cross-modal relationships and textual semantics within a unified representation. We develop cross-modal hybrid retrieval that combines structural knowledge navigation with semantic matching. This enables effective reasoning over heterogeneous content where relevant evidence spans multiple modalities. RAG-Anything demonstrates superior performance on challenging multimodal benchmarks, achieving significant improvements over state-of-the-art methods. Performance gains become particularly pronounced on long documents where traditional approaches fail. Our framework establishes a new paradigm for multimodal knowledge access, eliminating the architectural fragmentation that constrains current systems. Our framework is open-sourced at: https://github.com/HKUDS/RAG-Anything.

RAG-Anything: Framework RAG Tutto-in-Uno

RAG-Anything: All-in-One RAG Framework

Abstract

Support