A-RAG: Escalado de Generación Aumentada por Recuperación Agéntica mediante Interfaz de Recuperación Jerárquica
A-RAG: Scaling Agentic Retrieval-Augmented Generation via Hierarchical Retrieval Interfaces
February 3, 2026
Autores: Mingxuan Du, Benfeng Xu, Chiwei Zhu, Shaohan Wang, Pengyu Wang, Xiaorui Wang, Zhendong Mao
cs.AI
Resumen
Los modelos de lenguaje de vanguardia han demostrado sólidas capacidades de razonamiento y uso de herramientas a largo plazo. Sin embargo, los sistemas RAG existentes no logran aprovechar estas capacidades. Siguen dependiendo de dos paradigmas: (1) diseñar un algoritmo que recupera pasajes de una sola vez y los concatena en la entrada del modelo, o (2) predefinir un flujo de trabajo y solicitar al modelo que lo ejecute paso a paso. Ninguno de estos paradigmas permite que el modelo participe en las decisiones de recuperación, lo que impide una escalabilidad eficiente con las mejoras del modelo. En este artículo, presentamos A-RAG, un marco RAG Agéntico que expone interfaces de recuperación jerárquicas directamente al modelo. A-RAG proporciona tres herramientas de recuperación: búsqueda por palabras clave, búsqueda semántica y lectura de fragmentos, permitiendo que el agente busque y recupere información de forma adaptativa en múltiples niveles de granularidad. Los experimentos en múltiples benchmarks de QA de dominio abierto muestran que A-RAG supera consistentemente a los enfoques existentes con un número comparable o menor de tokens recuperados, demostrando que A-RAG aprovecha efectivamente las capacidades del modelo y se adapta dinámicamente a diferentes tareas RAG. Además, estudiamos sistemáticamente cómo A-RAG escala con el tamaño del modelo y la capacidad computacional en tiempo de prueba. Liberaremos nuestro código y conjunto de evaluación para facilitar la investigación futura. El código y el conjunto de evaluación están disponibles en https://github.com/Ayanami0730/arag.
English
Frontier language models have demonstrated strong reasoning and long-horizon tool-use capabilities. However, existing RAG systems fail to leverage these capabilities. They still rely on two paradigms: (1) designing an algorithm that retrieves passages in a single shot and concatenates them into the model's input, or (2) predefining a workflow and prompting the model to execute it step-by-step. Neither paradigm allows the model to participate in retrieval decisions, preventing efficient scaling with model improvements. In this paper, we introduce A-RAG, an Agentic RAG framework that exposes hierarchical retrieval interfaces directly to the model. A-RAG provides three retrieval tools: keyword search, semantic search, and chunk read, enabling the agent to adaptively search and retrieve information across multiple granularities. Experiments on multiple open-domain QA benchmarks show that A-RAG consistently outperforms existing approaches with comparable or lower retrieved tokens, demonstrating that A-RAG effectively leverages model capabilities and dynamically adapts to different RAG tasks. We further systematically study how A-RAG scales with model size and test-time compute. We will release our code and evaluation suite to facilitate future research. Code and evaluation suite are available at https://github.com/Ayanami0730/arag.