RAG-Anything: Универсальная платформа для RAG
RAG-Anything: All-in-One RAG Framework
October 14, 2025
Авторы: Zirui Guo, Xubin Ren, Lingrui Xu, Jiahao Zhang, Chao Huang
cs.AI
Аннотация
Retrieval-Augmented Generation (RAG) утвердился как фундаментальная парадигма для расширения возможностей крупных языковых моделей за пределы их статических ограничений, накладываемых обучением. Однако существует критическое несоответствие между текущими возможностями RAG и реальными информационными средами. Современные хранилища знаний по своей природе мультимодальны, содержат богатые комбинации текстового контента, визуальных элементов, структурированных таблиц и математических выражений. Тем не менее существующие RAG-фреймворки ограничиваются текстовым контентом, что создает фундаментальные пробелы при обработке мультимодальных документов. Мы представляем RAG-Anything — унифицированный фреймворк, который обеспечивает комплексное извлечение знаний для всех модальностей. Наш подход переосмысливает мультимодальный контент как взаимосвязанные сущности знаний, а не изолированные типы данных. Фреймворк вводит двойное графовое построение для захвата как кросс-модальных связей, так и текстовой семантики в рамках единого представления. Мы разрабатываем кросс-модальный гибридный поиск, который сочетает навигацию по структурным знаниям с семантическим сопоставлением. Это позволяет эффективно рассуждать над гетерогенным контентом, где релевантные доказательства охватывают несколько модальностей. RAG-Anything демонстрирует превосходную производительность на сложных мультимодальных бенчмарках, достигая значительных улучшений по сравнению с современными методами. Увеличение производительности становится особенно заметным на длинных документах, где традиционные подходы терпят неудачу. Наш фреймворк устанавливает новую парадигму для доступа к мультимодальным знаниям, устраняя архитектурную фрагментацию, которая ограничивает текущие системы. Наш фреймворк доступен в открытом исходном коде по адресу: https://github.com/HKUDS/RAG-Anything.
English
Retrieval-Augmented Generation (RAG) has emerged as a fundamental paradigm
for expanding Large Language Models beyond their static training limitations.
However, a critical misalignment exists between current RAG capabilities and
real-world information environments. Modern knowledge repositories are
inherently multimodal, containing rich combinations of textual content, visual
elements, structured tables, and mathematical expressions. Yet existing RAG
frameworks are limited to textual content, creating fundamental gaps when
processing multimodal documents. We present RAG-Anything, a unified framework
that enables comprehensive knowledge retrieval across all modalities. Our
approach reconceptualizes multimodal content as interconnected knowledge
entities rather than isolated data types. The framework introduces dual-graph
construction to capture both cross-modal relationships and textual semantics
within a unified representation. We develop cross-modal hybrid retrieval that
combines structural knowledge navigation with semantic matching. This enables
effective reasoning over heterogeneous content where relevant evidence spans
multiple modalities. RAG-Anything demonstrates superior performance on
challenging multimodal benchmarks, achieving significant improvements over
state-of-the-art methods. Performance gains become particularly pronounced on
long documents where traditional approaches fail. Our framework establishes a
new paradigm for multimodal knowledge access, eliminating the architectural
fragmentation that constrains current systems. Our framework is open-sourced
at: https://github.com/HKUDS/RAG-Anything.