StraTA: Het stimuleren van agent-gebaseerd reinforcement learning met strategische trajectabstra
StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction
May 7, 2026
Auteurs: Xiangyuan Xue, Yifan Zhou, Zidong Wang, Shengji Tang, Philip Torr, Wanli Ouyang, Lei Bai, Zhenfei Yin
cs.AI
Samenvatting
Grote taalmmodellen (LLM's) worden steeds vaker gebruikt als interactieve agenten, maar het optimaliseren ervan voor besluitvorming op lange termijn blijft moeilijk omdat huidige methoden grotendeels puur reactief zijn, wat zowel de verkenning als de toewijzing van credits over langere trajecten verzwakt. In dit werk presenteren we Strategic Trajectory Abstraction (StraTA), een eenvoudig raamwerk dat een expliciete trajectniveau-strategie introduceert in agent-gebaseerd reinforcement learning (RL). StraTA samplet een compacte strategie vanuit de initiële taaktoestand, conditioneert daaropvolgende acties op die strategie, en traint strategiegeneratie en actie-uitvoering gezamenlijk met een hiërarchisch GRPO-achtig rollout-ontwerp, verder verbeterd door diverse strategie-rollout en kritisch zelfoordeel. Experimenten op ALFWorld, WebShop en SciWorld tonen aan dat StraTA consistent zowel de steekproevefficiëntie als de uiteindelijke prestaties verbetert ten opzichte van sterke basislijnen. StraTA behaalt succespercentages van 93,1% op ALFWorld en 84,2% op WebShop. Op SciWorld behaalt StraTA een algemene score van 63,5%, waarmee het frontier closed-source modellen overtreft.
English
Large language models (LLMs) are increasingly used as interactive agents, but optimizing them for long-horizon decision making remains difficult because current methods are largely purely reactive, which weakens both exploration and credit assignment over extended trajectories. In this work, we present Strategic Trajectory Abstraction (StraTA), a simple framework that introduces an explicit trajectory-level strategy into agentic reinforcement learning (RL). StraTA samples a compact strategy from the initial task state, conditions subsequent actions on that strategy, and trains strategy generation and action execution jointly with a hierarchical GRPO-style rollout design, further enhanced by diverse strategy rollout and critical self-judgment. Experiments on ALFWorld, WebShop, and SciWorld show that StraTA consistently improves both sample efficiency and final performance over strong baselines. StraTA reaches success rates of 93.1% on ALFWorld and 84.2% on WebShop. On SciWorld, StraTA attains a 63.5% overall score, outperforming frontier closed-source models.