A-RAG: Scalabilità della Generazione Aumentata dal Recupero Agente tramite Interfacce di Recupero Gerarchiche

Abstract

I modelli linguistici all'avanguardia hanno dimostrato solide capacità di ragionamento e di utilizzo di strumenti a lungo termine. Tuttavia, gli attuali sistemi RAG non riescono a sfruttare appieno queste capacità. Essi si basano ancora su due paradigmi: (1) progettare un algoritmo che recuperi i passaggi in un'unica soluzione e li concateni nell'input del modello, oppure (2) predefinire un flusso di lavoro e guidare il modello a eseguirlo passo dopo passo. Nessuno dei due paradigmi consente al modello di partecipare alle decisioni di retrieval, impedendo una scalabilità efficiente con il miglioramento dei modelli. In questo articolo, introduciamo A-RAG, un framework RAG agentico che espone interfacce di retrieval gerarchiche direttamente al modello. A-RAG fornisce tre strumenti di recupero: ricerca per parole chiave, ricerca semantica e lettura di blocchi (chunk), consentendo all'agente di cercare e recuperare informazioni in modo adattivo attraverso molteplici granularità. Esperimenti su molteplici benchmark di QA open-domain mostrano che A-RAG supera costantemente gli approcci esistenti con un numero comparabile o inferiore di token recuperati, dimostrando che A-RAG sfrutta efficacemente le capacità del modello e si adatta dinamicamente a diversi compiti RAG. Studiamo inoltre sistematicamente come A-RAG scala con la dimensione del modello e la potenza di calcolo a test time. Rilasceremo il nostro codice e la suite di valutazione per facilitare la ricerca futura. Codice e suite di valutazione sono disponibili all'indirizzo https://github.com/Ayanami0730/arag.

English

Frontier language models have demonstrated strong reasoning and long-horizon tool-use capabilities. However, existing RAG systems fail to leverage these capabilities. They still rely on two paradigms: (1) designing an algorithm that retrieves passages in a single shot and concatenates them into the model's input, or (2) predefining a workflow and prompting the model to execute it step-by-step. Neither paradigm allows the model to participate in retrieval decisions, preventing efficient scaling with model improvements. In this paper, we introduce A-RAG, an Agentic RAG framework that exposes hierarchical retrieval interfaces directly to the model. A-RAG provides three retrieval tools: keyword search, semantic search, and chunk read, enabling the agent to adaptively search and retrieve information across multiple granularities. Experiments on multiple open-domain QA benchmarks show that A-RAG consistently outperforms existing approaches with comparable or lower retrieved tokens, demonstrating that A-RAG effectively leverages model capabilities and dynamically adapts to different RAG tasks. We further systematically study how A-RAG scales with model size and test-time compute. We will release our code and evaluation suite to facilitate future research. Code and evaluation suite are available at https://github.com/Ayanami0730/arag.

A-RAG: Scalabilità della Generazione Aumentata dal Recupero Agente tramite Interfacce di Recupero Gerarchiche

A-RAG: Scaling Agentic Retrieval-Augmented Generation via Hierarchical Retrieval Interfaces

Abstract

Support