Ottimizzazione delle Politiche con Rinforzo Agente
Agentic Reinforced Policy Optimization
July 26, 2025
Autori: Guanting Dong, Hangyu Mao, Kai Ma, Licheng Bao, Yifei Chen, Zhongyuan Wang, Zhongxia Chen, Jiazhen Du, Huiyang Wang, Fuzheng Zhang, Guorui Zhou, Yutao Zhu, Ji-Rong Wen, Zhicheng Dou
cs.AI
Abstract
L'apprendimento per rinforzo su larga scala con ricompense verificabili (RLVR) ha dimostrato la sua efficacia nello sfruttare il potenziale dei grandi modelli linguistici (LLM) per compiti di ragionamento a singolo turno. Negli scenari realistici di ragionamento, i LLM possono spesso utilizzare strumenti esterni per assistere nei processi di risoluzione dei compiti. Tuttavia, gli attuali algoritmi di RL non bilanciano adeguatamente le capacità intrinseche di ragionamento a lungo termine dei modelli e la loro competenza nelle interazioni multi-turno con gli strumenti. Per colmare questa lacuna, proponiamo l'Agentic Reinforced Policy Optimization (ARPO), un nuovo algoritmo di RL agentico progettato per addestrare agenti basati su LLM multi-turno. Attraverso esperimenti preliminari, osserviamo che i LLM tendono a mostrare un comportamento altamente incerto, caratterizzato da un aumento della distribuzione di entropia dei token generati, immediatamente dopo le interazioni con strumenti esterni. Motivati da questa osservazione, ARPO incorpora un meccanismo di rollout adattivo basato sull'entropia, bilanciando dinamicamente il campionamento globale delle traiettorie e il campionamento a livello di passo, promuovendo così l'esplorazione nei passi con alta incertezza dopo l'uso degli strumenti. Integrando una stima dell'attribuzione del vantaggio, ARPO consente ai LLM di interiorizzare le differenze di vantaggio nelle interazioni passo-passo con l'uso degli strumenti. I nostri esperimenti su 13 benchmark impegnativi nei domini del ragionamento computazionale, del ragionamento basato sulla conoscenza e della ricerca approfondita dimostrano la superiorità di ARPO rispetto agli algoritmi di RL a livello di traiettoria. In modo significativo, ARPO raggiunge prestazioni migliorate utilizzando solo la metà del budget di utilizzo degli strumenti richiesto dai metodi esistenti, offrendo una soluzione scalabile per allineare gli agenti basati su LLM con ambienti dinamici in tempo reale. Il nostro codice e i dataset sono rilasciati su https://github.com/dongguanting/ARPO.
English
Large-scale reinforcement learning with verifiable rewards (RLVR) has
demonstrated its effectiveness in harnessing the potential of large language
models (LLMs) for single-turn reasoning tasks. In realistic reasoning
scenarios, LLMs can often utilize external tools to assist in task-solving
processes. However, current RL algorithms inadequately balance the models'
intrinsic long-horizon reasoning capabilities and their proficiency in
multi-turn tool interactions. To bridge this gap, we propose Agentic Reinforced
Policy Optimization (ARPO), a novel agentic RL algorithm tailored for training
multi-turn LLM-based agents. Through preliminary experiments, we observe that
LLMs tend to exhibit highly uncertain behavior, characterized by an increase in
the entropy distribution of generated tokens, immediately following
interactions with external tools. Motivated by this observation, ARPO
incorporates an entropy-based adaptive rollout mechanism, dynamically balancing
global trajectory sampling and step-level sampling, thereby promoting
exploration at steps with high uncertainty after tool usage. By integrating an
advantage attribution estimation, ARPO enables LLMs to internalize advantage
differences in stepwise tool-use interactions. Our experiments across 13
challenging benchmarks in computational reasoning, knowledge reasoning, and
deep search domains demonstrate ARPO's superiority over trajectory-level RL
algorithms. Remarkably, ARPO achieves improved performance using only half of
the tool-use budget required by existing methods, offering a scalable solution
for aligning LLM-based agents with real-time dynamic environments. Our code and
datasets are released at https://github.com/dongguanting/ARPO