Agentische Versterkte Beleidsoptimalisatie
Agentic Reinforced Policy Optimization
July 26, 2025
Auteurs: Guanting Dong, Hangyu Mao, Kai Ma, Licheng Bao, Yifei Chen, Zhongyuan Wang, Zhongxia Chen, Jiazhen Du, Huiyang Wang, Fuzheng Zhang, Guorui Zhou, Yutao Zhu, Ji-Rong Wen, Zhicheng Dou
cs.AI
Samenvatting
Grootschalige reinforcement learning met verifieerbare beloningen (RLVR) heeft zijn effectiviteit aangetoond bij het benutten van het potentieel van grote taalmmodellen (LLMs) voor enkelvoudige redeneertaken. In realistische redeneerscenario's kunnen LLMs vaak externe hulpmiddelen gebruiken om het takenoplossingsproces te ondersteunen. Huidige RL-algoritmen slagen er echter onvoldoende in om de intrinsieke langetermijnredeneercapaciteiten van de modellen en hun vaardigheid in meervoudige interacties met hulpmiddelen in balans te brengen. Om deze kloof te overbruggen, stellen we Agentic Reinforced Policy Optimization (ARPO) voor, een nieuw agentisch RL-algoritme dat is afgestemd op het trainen van meervoudige LLM-gebaseerde agents. Uit voorlopige experimenten blijkt dat LLMs vaak zeer onzeker gedrag vertonen, gekenmerkt door een toename in de entropieverdeling van gegenereerde tokens, direct na interacties met externe hulpmiddelen. Gemotiveerd door deze observatie, integreert ARPO een entropie-gebaseerd adaptief rollout-mechanisme, dat dynamisch globale trajectbemonstering en stapgewijze bemonstering in balans brengt, waardoor exploratie wordt bevorderd bij stappen met hoge onzekerheid na het gebruik van hulpmiddelen. Door een voordeelattributie-estimatie te integreren, stelt ARPO LLMs in staat om voordeelverschillen te internaliseren in stapsgewijze interacties met hulpmiddelen. Onze experimenten over 13 uitdagende benchmarks in computationeel redeneren, kennisredeneren en diepzoekdomeinen demonstreren de superioriteit van ARPO ten opzichte van trajectniveau RL-algoritmen. Opmerkelijk is dat ARPO verbeterde prestaties bereikt met slechts de helft van het hulpmiddelgebruiksbudget dat bestaande methoden vereisen, en biedt zo een schaalbare oplossing voor het afstemmen van LLM-gebaseerde agents op real-time dynamische omgevingen. Onze code en datasets zijn vrijgegeven op https://github.com/dongguanting/ARPO.
English
Large-scale reinforcement learning with verifiable rewards (RLVR) has
demonstrated its effectiveness in harnessing the potential of large language
models (LLMs) for single-turn reasoning tasks. In realistic reasoning
scenarios, LLMs can often utilize external tools to assist in task-solving
processes. However, current RL algorithms inadequately balance the models'
intrinsic long-horizon reasoning capabilities and their proficiency in
multi-turn tool interactions. To bridge this gap, we propose Agentic Reinforced
Policy Optimization (ARPO), a novel agentic RL algorithm tailored for training
multi-turn LLM-based agents. Through preliminary experiments, we observe that
LLMs tend to exhibit highly uncertain behavior, characterized by an increase in
the entropy distribution of generated tokens, immediately following
interactions with external tools. Motivated by this observation, ARPO
incorporates an entropy-based adaptive rollout mechanism, dynamically balancing
global trajectory sampling and step-level sampling, thereby promoting
exploration at steps with high uncertainty after tool usage. By integrating an
advantage attribution estimation, ARPO enables LLMs to internalize advantage
differences in stepwise tool-use interactions. Our experiments across 13
challenging benchmarks in computational reasoning, knowledge reasoning, and
deep search domains demonstrate ARPO's superiority over trajectory-level RL
algorithms. Remarkably, ARPO achieves improved performance using only half of
the tool-use budget required by existing methods, offering a scalable solution
for aligning LLM-based agents with real-time dynamic environments. Our code and
datasets are released at https://github.com/dongguanting/ARPO