RetroAgent : De la résolution à l'évolution via une rétrospective à double rétroaction intrinsèque

Résumé

Les agents basés sur de grands modèles de langage (LLM) et entraînés par apprentissage par renforcement (RL) ont démontré un fort potentiel pour les tâches interactives complexes. Cependant, les paradigmes standards du RL privilégient la résolution statique de problèmes par rapport à l'adaptation continue : les agents convergent souvent vers des stratégies sous-optimales en raison d'une exploration insuffisante, tandis que les connaissances acquises restent implicites dans les paramètres plutôt qu'explicitement récupérables, limitant ainsi un apprentissage expérientiel efficace. Pour remédier à ces limitations, nous présentons RetroAgent, un cadre de RL en ligne qui permet aux agents de maîtriser des environnements interactifs complexes non seulement en résolvant des problèmes, mais en évoluant. Concrètement, RetroAgent intègre un mécanisme d'auto-réflexion a posteriori qui produit un retour intrinsèque dual : (1) un retour numérique intrinsèque qui suit l'achèvement incrémental des sous-tâches par rapport aux tentatives précédentes, récompensant les explorations prometteuses, et (2) un retour linguistique intrinsèque qui distille des leçons réutilisables dans un tampon de mémoire, récupéré via notre stratégie proposée Similarity & Utility-Aware Upper Confidence Bound (SimUtil-UCB), qui équilibre la pertinence, l'utilité et l'exploitation pour tirer efficacement parti des expériences passées. Des expériences approfondies sur deux familles de modèles et quatre tâches agentielles difficiles démontrent que RetroAgent surpasse significativement les méthodes existantes, obtenant des résultats à la pointe de l'état de l'art — par exemple, en dépassant les agents entraînés par l'Optimisation de Politique Relative par Groupe (GRPO) de +18,3 % sur ALFWorld, +15,4 % sur WebShop, +27,1 % sur Sokoban et +8,9 % sur MineSweeper — tout en présentant une forte capacité d'adaptation et de généralisation en phase de test à des scénarios hors distribution.

English

Large language model (LLM)-based agents trained with reinforcement learning (RL) have shown strong potential on complex interactive tasks. However, standard RL paradigms favor static problem-solving over continuous adaptation: agents often converge to suboptimal strategies due to insufficient exploration, while learned knowledge remains implicit within parameters rather than explicitly retrievable, limiting effective experiential learning. To address these limitations, we introduce RetroAgent, an online RL framework that empowers agents to master complex interactive environments not just by solving, but by evolving. Concretely, RetroAgent features a hindsight self-reflection mechanism that produces dual intrinsic feedback: (1) intrinsic numerical feedback that that tracks incremental subtask completion relative to prior attempts, rewarding promising explorations, and (2) intrinsic language feedback that distills reusable lessons into a memory buffer, retrieved via our proposed Similarity & Utility-Aware Upper Confidence Bound (SimUtil-UCB) strategy balancing relevance, utility, and exploration to effectively leverage past experiences. Extensive experiments on two model families across four challenging agentic tasks demonstrate that RetroAgent significantly outperforms existing methods, achieving state-of-the-art results -- e.g., surpassing Group Relative Policy Optimization (GRPO)-trained agents by +18.3% on ALFWorld, +15.4% on WebShop, +27.1% on Sokoban, and +8.9% on MineSweeper -- while exhibiting strong test-time adaptation and generalization to out-of-distribution scenarios.

RetroAgent : De la résolution à l'évolution via une rétrospective à double rétroaction intrinsèque

RetroAgent: From Solving to Evolving via Retrospective Dual Intrinsic Feedback

Résumé

Support