RetroAgent: Van Oplossen naar Evolueren via Retrospectieve Duale Intrinsieke Feedback

Samenvatting

Op reinforcement learning (RL) getrainde agents op basis van grote taalmmodellen (LLM's) hebben een groot potentieel getoond voor complexe interactieve taken. Het standaard RL-paradigma geeft echter vaak de voorkeur aan statisch probleemoplossen boven continue aanpassing: agenten convergeren vaak naar suboptimale strategieën door onvoldoende exploratie, terwijl aangeleerde kennis impliciet in parameters blijft in plaats van expliciet opvraagbaar te zijn, wat effectief ervaringsleren beperkt. Om deze beperkingen aan te pakken, introduceren we RetroAgent, een online RL-framework dat agenten in staat stelt complexe interactieve omgevingen niet alleen te beheersen door problemen op te lossen, maar door te evolueren. Concreet beschikt RetroAgent over een zelfreflectiemechanisme met hindsight dat dubbele intrinsieke feedback produceert: (1) intrinsieke numerieke feedback die de incrementele subtask-voltooiing volgt ten opzichte van eerdere pogingen, waarbij veelbelovende verkenningen worden beloond, en (2) intrinsieke taalfeedback die herbruikbare lessen destilleert in een geheugenbuffer, opgehaald via onze voorgestelde Similarity & Utility-Aware Upper Confidence Bound (SimUtil-UCB)-strategie. Deze strategie balanceert relevantie, bruikbaarheid en exploratie om effectief gebruik te maken van eerdere ervaringen. Uitgebreide experimenten met twee modelfamilies op vier uitdagende agenttaken tonen aan dat RetroAgent bestaande methoden significant overtreft en state-of-the-art resultaten behaalt – bijvoorbeeld een verbetering van +18,3% op ALFWorld, +15,4% op WebShop, +27,1% op Sokoban en +8,9% op MineSweeper ten opzichte van met Group Relative Policy Optimization (GRPO) getrainde agenten – terwijl het sterke aanpassing tijdens testen en generalisatie naar out-of-distribution scenario's vertoont.

English

Large language model (LLM)-based agents trained with reinforcement learning (RL) have shown strong potential on complex interactive tasks. However, standard RL paradigms favor static problem-solving over continuous adaptation: agents often converge to suboptimal strategies due to insufficient exploration, while learned knowledge remains implicit within parameters rather than explicitly retrievable, limiting effective experiential learning. To address these limitations, we introduce RetroAgent, an online RL framework that empowers agents to master complex interactive environments not just by solving, but by evolving. Concretely, RetroAgent features a hindsight self-reflection mechanism that produces dual intrinsic feedback: (1) intrinsic numerical feedback that that tracks incremental subtask completion relative to prior attempts, rewarding promising explorations, and (2) intrinsic language feedback that distills reusable lessons into a memory buffer, retrieved via our proposed Similarity & Utility-Aware Upper Confidence Bound (SimUtil-UCB) strategy balancing relevance, utility, and exploration to effectively leverage past experiences. Extensive experiments on two model families across four challenging agentic tasks demonstrate that RetroAgent significantly outperforms existing methods, achieving state-of-the-art results -- e.g., surpassing Group Relative Policy Optimization (GRPO)-trained agents by +18.3% on ALFWorld, +15.4% on WebShop, +27.1% on Sokoban, and +8.9% on MineSweeper -- while exhibiting strong test-time adaptation and generalization to out-of-distribution scenarios.

RetroAgent: Van Oplossen naar Evolueren via Retrospectieve Duale Intrinsieke Feedback

RetroAgent: From Solving to Evolving via Retrospective Dual Intrinsic Feedback

Samenvatting

Support