ChatPaper.aiChatPaper

RAG-Anything: オールインワンRAGフレームワーク

RAG-Anything: All-in-One RAG Framework

October 14, 2025
著者: Zirui Guo, Xubin Ren, Lingrui Xu, Jiahao Zhang, Chao Huang
cs.AI

要旨

検索拡張生成(RAG)は、大規模言語モデルをその静的な学習限界を超えて拡張するための基本的なパラダイムとして登場した。しかし、現在のRAGの能力と現実世界の情報環境との間には重大な不整合が存在する。現代の知識リポジトリは本質的にマルチモーダルであり、テキストコンテンツ、視覚的要素、構造化された表、数学的表現などの豊かな組み合わせを含んでいる。しかし、既存のRAGフレームワークはテキストコンテンツに限定されており、マルチモーダルドキュメントを処理する際に根本的なギャップを生じさせている。本論文では、すべてのモダリティにわたる包括的な知識検索を可能にする統一フレームワークであるRAG-Anythingを提案する。我々のアプローチは、マルチモーダルコンテンツを孤立したデータタイプではなく、相互接続された知識エンティティとして再概念化する。このフレームワークは、クロスモーダル関係とテキスト意味論の両方を統一された表現内で捕捉するためのデュアルグラフ構築を導入する。構造的な知識ナビゲーションと意味的マッチングを組み合わせたクロスモーダルハイブリッド検索を開発し、関連する証拠が複数のモダリティにまたがる異種コンテンツに対する効果的な推論を可能にする。RAG-Anythingは、挑戦的なマルチモーダルベンチマークにおいて、最先端の手法を大幅に上回る性能を示す。特に、従来のアプローチが失敗する長文ドキュメントにおいて、性能向上が顕著である。本フレームワークは、現在のシステムを制約するアーキテクチャの断片化を解消し、マルチモーダル知識アクセスの新たなパラダイムを確立する。本フレームワークは、https://github.com/HKUDS/RAG-Anything でオープンソースとして公開されている。
English
Retrieval-Augmented Generation (RAG) has emerged as a fundamental paradigm for expanding Large Language Models beyond their static training limitations. However, a critical misalignment exists between current RAG capabilities and real-world information environments. Modern knowledge repositories are inherently multimodal, containing rich combinations of textual content, visual elements, structured tables, and mathematical expressions. Yet existing RAG frameworks are limited to textual content, creating fundamental gaps when processing multimodal documents. We present RAG-Anything, a unified framework that enables comprehensive knowledge retrieval across all modalities. Our approach reconceptualizes multimodal content as interconnected knowledge entities rather than isolated data types. The framework introduces dual-graph construction to capture both cross-modal relationships and textual semantics within a unified representation. We develop cross-modal hybrid retrieval that combines structural knowledge navigation with semantic matching. This enables effective reasoning over heterogeneous content where relevant evidence spans multiple modalities. RAG-Anything demonstrates superior performance on challenging multimodal benchmarks, achieving significant improvements over state-of-the-art methods. Performance gains become particularly pronounced on long documents where traditional approaches fail. Our framework establishes a new paradigm for multimodal knowledge access, eliminating the architectural fragmentation that constrains current systems. Our framework is open-sourced at: https://github.com/HKUDS/RAG-Anything.
PDF365October 15, 2025