A-RAG: Масштабирование агентного поисково-дополненного генеративного моделирования с помощью иерархических интерфейсов поиска

Аннотация

Передовые языковые модели демонстрируют мощные способности к рассуждениям и использованию инструментов для решения сложных многоэтапных задач. Однако существующие системы RAG (Retrieval-Augmented Generation) не используют эти возможности в полной мере. Они по-прежнему опираются на две парадигмы: (1) проектирование алгоритма, который извлекает фрагменты текста за один шаг и объединяет их во входные данные модели, или (2) предварительное определение рабочего процесса, который модель выполняет пошагово согласно инструкциям. Ни одна из парадигм не позволяет модели участвовать в принятии решений о поиске, что препятствует эффективному масштабированию по мере улучшения моделей. В данной статье мы представляем A-RAG, агентскую RAG-структуру, которая предоставляет модели прямой доступ к иерархическим интерфейсам поиска. A-RAG предлагает три инструмента поиска: поиск по ключевым словам, семантический поиск и чтение фрагментов, что позволяет агенту адаптивно осуществлять поиск и извлекать информацию на разных уровнях детализации. Эксперименты на нескольких наборах данных для вопросно-ответных задач в открытой предметной области показывают, что A-RAG стабильно превосходит существующие подходы при сопоставимом или меньшем количестве извлеченных токенов, что демонстрирует эффективное использование возможностей модели и динамическую адаптацию к различным RAG-задачам. Мы также систематически исследуем, как A-RAG масштабируется в зависимости от размера модели и вычислительных ресурсов на этапе тестирования. Мы опубликуем наш код и набор для оценки, чтобы способствовать дальнейшим исследованиям. Код и набор для оценки доступны по адресу: https://github.com/Ayanami0730/arag.

English

Frontier language models have demonstrated strong reasoning and long-horizon tool-use capabilities. However, existing RAG systems fail to leverage these capabilities. They still rely on two paradigms: (1) designing an algorithm that retrieves passages in a single shot and concatenates them into the model's input, or (2) predefining a workflow and prompting the model to execute it step-by-step. Neither paradigm allows the model to participate in retrieval decisions, preventing efficient scaling with model improvements. In this paper, we introduce A-RAG, an Agentic RAG framework that exposes hierarchical retrieval interfaces directly to the model. A-RAG provides three retrieval tools: keyword search, semantic search, and chunk read, enabling the agent to adaptively search and retrieve information across multiple granularities. Experiments on multiple open-domain QA benchmarks show that A-RAG consistently outperforms existing approaches with comparable or lower retrieved tokens, demonstrating that A-RAG effectively leverages model capabilities and dynamically adapts to different RAG tasks. We further systematically study how A-RAG scales with model size and test-time compute. We will release our code and evaluation suite to facilitate future research. Code and evaluation suite are available at https://github.com/Ayanami0730/arag.

A-RAG: Масштабирование агентного поисково-дополненного генеративного моделирования с помощью иерархических интерфейсов поиска

A-RAG: Scaling Agentic Retrieval-Augmented Generation via Hierarchical Retrieval Interfaces

Аннотация

Support