Oltre le Dieci Mosse: Sbloccare la Ricerca Agente a Lungo Termine con l'Apprendimento per Rinforzo Asincrono su Larga Scala
Beyond Ten Turns: Unlocking Long-Horizon Agentic Search with Large-Scale Asynchronous RL
August 11, 2025
Autori: Jiaxuan Gao, Wei Fu, Minyang Xie, Shusheng Xu, Chuyi He, Zhiyu Mei, Banghua Zhu, Yi Wu
cs.AI
Abstract
I recenti progressi negli agenti basati su LLM hanno dimostrato capacità straordinarie nel gestire compiti complessi e ad alta intensità di conoscenza, integrando strumenti esterni. Tra le diverse scelte di strumenti, quelli di ricerca svolgono un ruolo fondamentale nell'accesso a vaste conoscenze esterne. Tuttavia, gli agenti open-source non riescono ancora a raggiungere un livello esperto di Search Intelligence, ovvero la capacità di risolvere query ambigue, generare ricerche precise, analizzare i risultati e condurre esplorazioni approfondite. Gli approcci esistenti presentano carenze in termini di scalabilità, efficienza e qualità dei dati. Ad esempio, i limiti di turno ridotti nei metodi RL online esistenti, ad esempio <=10, limitano l'apprendimento di strategie complesse. Questo articolo introduce ASearcher, un progetto open-source per l'addestramento RL su larga scala di agenti di ricerca. I nostri contributi principali includono: (1) Un addestramento RL completamente asincrono e scalabile che consente ricerche a lungo termine mantenendo un'elevata efficienza di addestramento. (2) Un agente LLM basato su prompt che sintetizza autonomamente QA di alta qualità e impegnativi, creando un ampio dataset QA. Attraverso l'addestramento RL, il nostro agente QwQ-32B basato su prompt ottiene miglioramenti significativi, con guadagni Avg@4 del 46,7% e 20,8% rispettivamente su xBench e GAIA. In particolare, il nostro agente mostra una ricerca estremamente a lungo termine, con chiamate di strumenti che superano i 40 turni e token di output che superano i 150k durante il tempo di addestramento. Con un design semplice dell'agente e senza LLM esterni, ASearcher-Web-QwQ raggiunge punteggi Avg@4 di 42,1 su xBench e 52,8 su GAIA, superando gli agenti open-source 32B esistenti. Rendiamo open-source i nostri modelli, dati di addestramento e codici su https://github.com/inclusionAI/ASearcher.
English
Recent advancements in LLM-based agents have demonstrated remarkable
capabilities in handling complex, knowledge-intensive tasks by integrating
external tools. Among diverse choices of tools, search tools play a pivotal
role in accessing vast external knowledge. However, open-source agents still
fall short of achieving expert-level Search Intelligence, the ability to
resolve ambiguous queries, generate precise searches, analyze results, and
conduct thorough exploration. Existing approaches fall short in scalability,
efficiency, and data quality. For example, small turn limits in existing online
RL methods, e.g. <=10, restrict complex strategy learning. This paper
introduces ASearcher, an open-source project for large-scale RL training of
search agents. Our key contributions include: (1) Scalable fully asynchronous
RL training that enables long-horizon search while maintaining high training
efficiency. (2) A prompt-based LLM agent that autonomously synthesizes
high-quality and challenging QAs, creating a large-scale QA dataset. Through RL
training, our prompt-based QwQ-32B agent achieves substantial improvements,
with 46.7% and 20.8% Avg@4 gains on xBench and GAIA, respectively. Notably, our
agent exhibits extreme long-horizon search, with tool calls exceeding 40 turns
and output tokens exceeding 150k during training time. With a simple agent
design and no external LLMs, ASearcher-Web-QwQ achieves Avg@4 scores of 42.1 on
xBench and 52.8 on GAIA, surpassing existing open-source 32B agents. We
open-source our models, training data, and codes in
https://github.com/inclusionAI/ASearcher.