Ottimizzazione delle Politiche con Rinforzo Agente

Abstract

L'apprendimento per rinforzo su larga scala con ricompense verificabili (RLVR) ha dimostrato la sua efficacia nello sfruttare il potenziale dei grandi modelli linguistici (LLM) per compiti di ragionamento a singolo turno. Negli scenari realistici di ragionamento, i LLM possono spesso utilizzare strumenti esterni per assistere nei processi di risoluzione dei compiti. Tuttavia, gli attuali algoritmi di RL non bilanciano adeguatamente le capacità intrinseche di ragionamento a lungo termine dei modelli e la loro competenza nelle interazioni multi-turno con gli strumenti. Per colmare questa lacuna, proponiamo l'Agentic Reinforced Policy Optimization (ARPO), un nuovo algoritmo di RL agentico progettato per addestrare agenti basati su LLM multi-turno. Attraverso esperimenti preliminari, osserviamo che i LLM tendono a mostrare un comportamento altamente incerto, caratterizzato da un aumento della distribuzione di entropia dei token generati, immediatamente dopo le interazioni con strumenti esterni. Motivati da questa osservazione, ARPO incorpora un meccanismo di rollout adattivo basato sull'entropia, bilanciando dinamicamente il campionamento globale delle traiettorie e il campionamento a livello di passo, promuovendo così l'esplorazione nei passi con alta incertezza dopo l'uso degli strumenti. Integrando una stima dell'attribuzione del vantaggio, ARPO consente ai LLM di interiorizzare le differenze di vantaggio nelle interazioni passo-passo con l'uso degli strumenti. I nostri esperimenti su 13 benchmark impegnativi nei domini del ragionamento computazionale, del ragionamento basato sulla conoscenza e della ricerca approfondita dimostrano la superiorità di ARPO rispetto agli algoritmi di RL a livello di traiettoria. In modo significativo, ARPO raggiunge prestazioni migliorate utilizzando solo la metà del budget di utilizzo degli strumenti richiesto dai metodi esistenti, offrendo una soluzione scalabile per allineare gli agenti basati su LLM con ambienti dinamici in tempo reale. Il nostro codice e i dataset sono rilasciati su https://github.com/dongguanting/ARPO.

English

Large-scale reinforcement learning with verifiable rewards (RLVR) has demonstrated its effectiveness in harnessing the potential of large language models (LLMs) for single-turn reasoning tasks. In realistic reasoning scenarios, LLMs can often utilize external tools to assist in task-solving processes. However, current RL algorithms inadequately balance the models' intrinsic long-horizon reasoning capabilities and their proficiency in multi-turn tool interactions. To bridge this gap, we propose Agentic Reinforced Policy Optimization (ARPO), a novel agentic RL algorithm tailored for training multi-turn LLM-based agents. Through preliminary experiments, we observe that LLMs tend to exhibit highly uncertain behavior, characterized by an increase in the entropy distribution of generated tokens, immediately following interactions with external tools. Motivated by this observation, ARPO incorporates an entropy-based adaptive rollout mechanism, dynamically balancing global trajectory sampling and step-level sampling, thereby promoting exploration at steps with high uncertainty after tool usage. By integrating an advantage attribution estimation, ARPO enables LLMs to internalize advantage differences in stepwise tool-use interactions. Our experiments across 13 challenging benchmarks in computational reasoning, knowledge reasoning, and deep search domains demonstrate ARPO's superiority over trajectory-level RL algorithms. Remarkably, ARPO achieves improved performance using only half of the tool-use budget required by existing methods, offering a scalable solution for aligning LLM-based agents with real-time dynamic environments. Our code and datasets are released at https://github.com/dongguanting/ARPO