A-RAG: Escalonando Geração Aumentada por Recuperação Agente por meio de Interfaces Hierárquicas de Recuperação

Resumo

Os modelos de linguagem de última geração demonstraram fortes capacidades de raciocínio e uso de ferramentas de longo alcance. No entanto, os sistemas RAG existentes não conseguem aproveitar essas capacidades. Eles ainda dependem de dois paradigmas: (1) projetar um algoritmo que recupere passagens em uma única etapa e as concatene na entrada do modelo, ou (2) predefinir um fluxo de trabalho e instruir o modelo a executá-lo passo a passo. Nenhum dos paradigmas permite que o modelo participe das decisões de recuperação, impedindo uma escalabilidade eficiente com as melhorias do modelo. Neste artigo, introduzimos o A-RAG, uma estrutura RAG Agêntica que expõe interfaces hierárquicas de recuperação diretamente ao modelo. O A-RAG fornece três ferramentas de recuperação: pesquisa por palavra-chave, pesquisa semântica e leitura de fragmentos, permitindo que o agente pesquise e recupere informações adaptativamente em múltiplas granularidades. Experimentos em várias bases de referência de QA de domínio aberto mostram que o A-RAG supera consistentemente as abordagens existentes com tokens recuperados comparáveis ou menores, demonstrando que o A-RAG aproveita efetivamente as capacidades do modelo e se adapta dinamicamente a diferentes tarefas RAG. Estudamos ainda sistematicamente como o A-RAG escala com o tamanho do modelo e a computação em tempo de teste. Liberaremos nosso código e conjunto de avaliação para facilitar pesquisas futuras. O código e o conjunto de avaliação estão disponíveis em https://github.com/Ayanami0730/arag.

English

Frontier language models have demonstrated strong reasoning and long-horizon tool-use capabilities. However, existing RAG systems fail to leverage these capabilities. They still rely on two paradigms: (1) designing an algorithm that retrieves passages in a single shot and concatenates them into the model's input, or (2) predefining a workflow and prompting the model to execute it step-by-step. Neither paradigm allows the model to participate in retrieval decisions, preventing efficient scaling with model improvements. In this paper, we introduce A-RAG, an Agentic RAG framework that exposes hierarchical retrieval interfaces directly to the model. A-RAG provides three retrieval tools: keyword search, semantic search, and chunk read, enabling the agent to adaptively search and retrieve information across multiple granularities. Experiments on multiple open-domain QA benchmarks show that A-RAG consistently outperforms existing approaches with comparable or lower retrieved tokens, demonstrating that A-RAG effectively leverages model capabilities and dynamically adapts to different RAG tasks. We further systematically study how A-RAG scales with model size and test-time compute. We will release our code and evaluation suite to facilitate future research. Code and evaluation suite are available at https://github.com/Ayanami0730/arag.

A-RAG: Escalonando Geração Aumentada por Recuperação Agente por meio de Interfaces Hierárquicas de Recuperação

A-RAG: Scaling Agentic Retrieval-Augmented Generation via Hierarchical Retrieval Interfaces

Resumo

Support