ChatPaper.aiChatPaper

RAG-Anything: All-in-One-RAG-Framework

RAG-Anything: All-in-One RAG Framework

October 14, 2025
papers.authors: Zirui Guo, Xubin Ren, Lingrui Xu, Jiahao Zhang, Chao Huang
cs.AI

papers.abstract

Retrieval-Augmented Generation (RAG) hat sich als grundlegendes Paradigma etabliert, um große Sprachmodelle über ihre statischen Trainingsgrenzen hinaus zu erweitern. Allerdings besteht eine kritische Diskrepanz zwischen den aktuellen RAG-Fähigkeiten und realen Informationsumgebungen. Moderne Wissensrepositorien sind inhärent multimodal und enthalten reichhaltige Kombinationen aus textuellen Inhalten, visuellen Elementen, strukturierten Tabellen und mathematischen Ausdrücken. Dennoch sind bestehende RAG-Frameworks auf textuelle Inhalte beschränkt, was grundlegende Lücken bei der Verarbeitung multimodaler Dokumente schafft. Wir präsentieren RAG-Anything, ein einheitliches Framework, das umfassende Wissensabfrage über alle Modalitäten hinweg ermöglicht. Unser Ansatz konzeptualisiert multimodale Inhalte als vernetzte Wissensentitäten anstelle von isolierten Datentypen neu. Das Framework führt die Konstruktion von Dual-Graphen ein, um sowohl cross-modale Beziehungen als auch textuelle Semantik in einer einheitlichen Darstellung zu erfassen. Wir entwickeln eine cross-modale Hybridabfrage, die strukturelle Wissensnavigation mit semantischem Matching kombiniert. Dies ermöglicht effektives Schlussfolgern über heterogene Inhalte, bei denen relevante Beweise mehrere Modalitäten umfassen. RAG-Anything zeigt überlegene Leistung bei anspruchsvollen multimodalen Benchmarks und erzielt signifikante Verbesserungen gegenüber state-of-the-art Methoden. Die Leistungssteigerungen sind besonders ausgeprägt bei langen Dokumenten, bei denen traditionelle Ansätze versagen. Unser Framework etabliert ein neues Paradigma für den Zugriff auf multimodales Wissen und beseitigt die architektonische Fragmentierung, die aktuelle Systeme einschränkt. Unser Framework ist Open-Source und verfügbar unter: https://github.com/HKUDS/RAG-Anything.
English
Retrieval-Augmented Generation (RAG) has emerged as a fundamental paradigm for expanding Large Language Models beyond their static training limitations. However, a critical misalignment exists between current RAG capabilities and real-world information environments. Modern knowledge repositories are inherently multimodal, containing rich combinations of textual content, visual elements, structured tables, and mathematical expressions. Yet existing RAG frameworks are limited to textual content, creating fundamental gaps when processing multimodal documents. We present RAG-Anything, a unified framework that enables comprehensive knowledge retrieval across all modalities. Our approach reconceptualizes multimodal content as interconnected knowledge entities rather than isolated data types. The framework introduces dual-graph construction to capture both cross-modal relationships and textual semantics within a unified representation. We develop cross-modal hybrid retrieval that combines structural knowledge navigation with semantic matching. This enables effective reasoning over heterogeneous content where relevant evidence spans multiple modalities. RAG-Anything demonstrates superior performance on challenging multimodal benchmarks, achieving significant improvements over state-of-the-art methods. Performance gains become particularly pronounced on long documents where traditional approaches fail. Our framework establishes a new paradigm for multimodal knowledge access, eliminating the architectural fragmentation that constrains current systems. Our framework is open-sourced at: https://github.com/HKUDS/RAG-Anything.
PDF365October 15, 2025