ChatPaper.aiChatPaper

RAG-Anything : Un cadre RAG tout-en-un

RAG-Anything: All-in-One RAG Framework

October 14, 2025
papers.authors: Zirui Guo, Xubin Ren, Lingrui Xu, Jiahao Zhang, Chao Huang
cs.AI

papers.abstract

La Génération Augmentée par Récupération (Retrieval-Augmented Generation, RAG) est apparue comme un paradigme fondamental pour étendre les capacités des modèles de langage au-delà de leurs limites d’entraînement statiques. Cependant, un désalignement critique existe entre les capacités actuelles de RAG et les environnements d’information du monde réel. Les référentiels de connaissances modernes sont intrinsèquement multimodaux, contenant des combinaisons riches de contenu textuel, d’éléments visuels, de tableaux structurés et d’expressions mathématiques. Pourtant, les frameworks RAG existants se limitent au contenu textuel, créant des lacunes fondamentales lors du traitement de documents multimodaux. Nous présentons RAG-Anything, un framework unifié qui permet une récupération complète des connaissances à travers toutes les modalités. Notre approche reconceptualise le contenu multimodal en tant qu’entités de connaissances interconnectées plutôt que comme des types de données isolés. Le framework introduit une construction de graphes doubles pour capturer à la fois les relations intermodales et la sémantique textuelle dans une représentation unifiée. Nous développons une récupération hybride intermodale qui combine la navigation structurelle des connaissances avec l’appariement sémantique. Cela permet un raisonnement efficace sur un contenu hétérogène où les preuves pertinentes s’étendent sur plusieurs modalités. RAG-Anything démontre une performance supérieure sur des benchmarks multimodaux exigeants, obtenant des améliorations significatives par rapport aux méthodes de pointe. Les gains de performance deviennent particulièrement marqués sur les documents longs où les approches traditionnelles échouent. Notre framework établit un nouveau paradigme pour l’accès multimodal aux connaissances, éliminant la fragmentation architecturale qui limite les systèmes actuels. Notre framework est open-source à l’adresse : https://github.com/HKUDS/RAG-Anything.
English
Retrieval-Augmented Generation (RAG) has emerged as a fundamental paradigm for expanding Large Language Models beyond their static training limitations. However, a critical misalignment exists between current RAG capabilities and real-world information environments. Modern knowledge repositories are inherently multimodal, containing rich combinations of textual content, visual elements, structured tables, and mathematical expressions. Yet existing RAG frameworks are limited to textual content, creating fundamental gaps when processing multimodal documents. We present RAG-Anything, a unified framework that enables comprehensive knowledge retrieval across all modalities. Our approach reconceptualizes multimodal content as interconnected knowledge entities rather than isolated data types. The framework introduces dual-graph construction to capture both cross-modal relationships and textual semantics within a unified representation. We develop cross-modal hybrid retrieval that combines structural knowledge navigation with semantic matching. This enables effective reasoning over heterogeneous content where relevant evidence spans multiple modalities. RAG-Anything demonstrates superior performance on challenging multimodal benchmarks, achieving significant improvements over state-of-the-art methods. Performance gains become particularly pronounced on long documents where traditional approaches fail. Our framework establishes a new paradigm for multimodal knowledge access, eliminating the architectural fragmentation that constrains current systems. Our framework is open-sourced at: https://github.com/HKUDS/RAG-Anything.
PDF365October 15, 2025