StraTA : Inciter l'apprentissage par renforcement agentique par l'abstraction stratégique de trajectoires

Résumé

Les grands modèles de langage (LLM) sont de plus en plus utilisés comme agents interactifs, mais leur optimisation pour la prise de décision à long terme reste difficile car les méthodes actuelles sont largement purement réactives, ce qui affaiblit à la fois l'exploration et l'attribution du crédit sur des trajectoires étendues. Dans ce travail, nous présentons Strategic Trajectory Abstraction (StraTA), un cadre simple qui introduit une stratégie explicite au niveau de la trajectoire dans l'apprentissage par renforcement (RL) agentique. StraTA échantillonne une stratégie compacte à partir de l'état initial de la tâche, conditionne les actions ultérieures sur cette stratégie, et entraîne la génération de stratégie et l'exécution des actions conjointement avec une conception hiérarchique de déploiement de type GRPO, renforcée en outre par un déploiement de stratégies diversifiées et un auto-jugement critique. Les expériences sur ALFWorld, WebShop et SciWorld montrent que StraTA améliore constamment à la fois l'efficacité de l'échantillonnage et les performances finales par rapport aux bases de référence solides. StraTA atteint des taux de réussite de 93,1 % sur ALFWorld et 84,2 % sur WebShop. Sur SciWorld, StraTA obtient un score global de 63,5 %, surpassant les modèles fermés de pointe.

English

Large language models (LLMs) are increasingly used as interactive agents, but optimizing them for long-horizon decision making remains difficult because current methods are largely purely reactive, which weakens both exploration and credit assignment over extended trajectories. In this work, we present Strategic Trajectory Abstraction (StraTA), a simple framework that introduces an explicit trajectory-level strategy into agentic reinforcement learning (RL). StraTA samples a compact strategy from the initial task state, conditions subsequent actions on that strategy, and trains strategy generation and action execution jointly with a hierarchical GRPO-style rollout design, further enhanced by diverse strategy rollout and critical self-judgment. Experiments on ALFWorld, WebShop, and SciWorld show that StraTA consistently improves both sample efficiency and final performance over strong baselines. StraTA reaches success rates of 93.1% on ALFWorld and 84.2% on WebShop. On SciWorld, StraTA attains a 63.5% overall score, outperforming frontier closed-source models.

StraTA : Inciter l'apprentissage par renforcement agentique par l'abstraction stratégique de trajectoires

StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction

Résumé

Support