RAG-Anything: 올인원 RAG 프레임워크
RAG-Anything: All-in-One RAG Framework
October 14, 2025
저자: Zirui Guo, Xubin Ren, Lingrui Xu, Jiahao Zhang, Chao Huang
cs.AI
초록
검색 증강 생성(Retrieval-Augmented Generation, RAG)은 대형 언어 모델(Large Language Models)이 정적인 학습 한계를 넘어 확장될 수 있는 기본 패러다임으로 부상했습니다. 그러나 현재의 RAG 능력과 실제 정보 환경 사이에는 중요한 불일치가 존재합니다. 현대의 지식 저장소는 본질적으로 다중 모달(multimodal)로, 텍스트 콘텐츠, 시각적 요소, 구조화된 테이블, 수학적 표현 등이 풍부하게 결합되어 있습니다. 그러나 기존의 RAG 프레임워크는 텍스트 콘텐츠에만 국한되어 있어 다중 모달 문서를 처리할 때 근본적인 격차를 만들어냅니다. 우리는 모든 모달리티에 걸친 포괄적인 지식 검색을 가능하게 하는 통합 프레임워크인 RAG-Anything을 제시합니다. 우리의 접근 방식은 다중 모달 콘텐츠를 고립된 데이터 유형이 아닌 상호 연결된 지식 엔티티로 재개념화합니다. 이 프레임워크는 교차 모달 관계와 텍스트 의미론을 통합된 표현 내에서 포착하기 위해 이중 그래프 구성을 도입합니다. 우리는 구조적 지식 탐색과 의미론적 매칭을 결합한 교차 모달 하이브리드 검색을 개발합니다. 이를 통해 관련 증거가 여러 모달리티에 걸쳐 있는 이질적 콘텐츠에 대한 효과적인 추론이 가능해집니다. RAG-Anything은 도전적인 다중 모달 벤치마크에서 최신 방법론 대비 상당한 개선을 이루며 우수한 성능을 보여줍니다. 특히 전통적인 접근 방식이 실패하는 긴 문서에서 성능 향상이 두드러집니다. 우리의 프레임워크는 현재 시스템을 제약하는 아키텍처적 단편화를 제거하며 다중 모달 지식 접근을 위한 새로운 패러다임을 확립합니다. 우리의 프레임워크는 https://github.com/HKUDS/RAG-Anything에서 오픈소스로 제공됩니다.
English
Retrieval-Augmented Generation (RAG) has emerged as a fundamental paradigm
for expanding Large Language Models beyond their static training limitations.
However, a critical misalignment exists between current RAG capabilities and
real-world information environments. Modern knowledge repositories are
inherently multimodal, containing rich combinations of textual content, visual
elements, structured tables, and mathematical expressions. Yet existing RAG
frameworks are limited to textual content, creating fundamental gaps when
processing multimodal documents. We present RAG-Anything, a unified framework
that enables comprehensive knowledge retrieval across all modalities. Our
approach reconceptualizes multimodal content as interconnected knowledge
entities rather than isolated data types. The framework introduces dual-graph
construction to capture both cross-modal relationships and textual semantics
within a unified representation. We develop cross-modal hybrid retrieval that
combines structural knowledge navigation with semantic matching. This enables
effective reasoning over heterogeneous content where relevant evidence spans
multiple modalities. RAG-Anything demonstrates superior performance on
challenging multimodal benchmarks, achieving significant improvements over
state-of-the-art methods. Performance gains become particularly pronounced on
long documents where traditional approaches fail. Our framework establishes a
new paradigm for multimodal knowledge access, eliminating the architectural
fragmentation that constrains current systems. Our framework is open-sourced
at: https://github.com/HKUDS/RAG-Anything.