StraTA: Anreizagentisches Reinforcement Learning durch strategische Trajektorienabstraktion
StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction
May 7, 2026
Autoren: Xiangyuan Xue, Yifan Zhou, Zidong Wang, Shengji Tang, Philip Torr, Wanli Ouyang, Lei Bai, Zhenfei Yin
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) werden zunehmend als interaktive Agenten eingesetzt, doch ihre Optimierung für langfristige Entscheidungsfindung bleibt schwierig, da bestehende Methoden weitgehend rein reaktiv sind, was sowohl die Exploration als auch die Kreditzuweisung über längere Trajektorien schwächt. In dieser Arbeit stellen wir Strategic Trajectory Abstraction (StraTA) vor, ein einfaches Framework, das eine explizite trajektorienbasierte Strategie in bestärkendes Lernen (RL) für Agenten einführt. StraTA sampelt eine kompakte Strategie aus dem initialen Aufgabenstatus, konditioniert nachfolgende Aktionen auf diese Strategie und trainiert Strategiegenerierung und Aktionsausführung gemeinsam mit einem hierarchischen GRPO-inspirierten Rollout-Design, das zusätzlich durch diverse Strategien-Rollouts und kritische Selbstbewertung verbessert wird. Experimente auf ALFWorld, WebShop und SciWorld zeigen, dass StraTA konsistent sowohl die Sample-Effizienz als auch die Endleistung gegenüber starken Baselines verbessert. StraTA erreicht Erfolgsquoten von 93,1 % auf ALFWorld und 84,2 % auf WebShop. Auf SciWorld erzielt StraTA eine Gesamtpunktzahl von 63,5 % und übertrifft damit state-of-the-art Closed-Source-Modelle.
English
Large language models (LLMs) are increasingly used as interactive agents, but optimizing them for long-horizon decision making remains difficult because current methods are largely purely reactive, which weakens both exploration and credit assignment over extended trajectories. In this work, we present Strategic Trajectory Abstraction (StraTA), a simple framework that introduces an explicit trajectory-level strategy into agentic reinforcement learning (RL). StraTA samples a compact strategy from the initial task state, conditions subsequent actions on that strategy, and trains strategy generation and action execution jointly with a hierarchical GRPO-style rollout design, further enhanced by diverse strategy rollout and critical self-judgment. Experiments on ALFWorld, WebShop, and SciWorld show that StraTA consistently improves both sample efficiency and final performance over strong baselines. StraTA reaches success rates of 93.1% on ALFWorld and 84.2% on WebShop. On SciWorld, StraTA attains a 63.5% overall score, outperforming frontier closed-source models.