RetroAgent: Dalla Risoluzione all'Evoluzione tramite Feedback Intrinseco Duale Retrospettivo

Abstract

Gli agenti basati su grandi modelli linguistici (LLM) addestrati con apprendimento per rinforzo (RL) hanno dimostrato un forte potenziale in compiti interattivi complessi. Tuttavia, i paradigmi RL standard favoriscono la risoluzione statica dei problemi rispetto all'adattamento continuo: gli agenti spesso convergono verso strategie subottimali a causa di un'esplorazione insufficiente, mentre la conoscenza appresa rimane implicita all'interno dei parametri piuttosto che essere recuperabile esplicitamente, limitando un efficace apprendimento esperienziale. Per affrontare queste limitazioni, introduciamo RetroAgent, un framework RL online che consente agli agenti di padroneggiare ambienti interattivi complessi non solo risolvendo i problemi, ma evolvendo. Nello specifico, RetroAgent presenta un meccanismo di auto-riflessione retrospettiva (hindsight self-reflection) che produce un feedback intrinseco duale: (1) un feedback numerico intrinseco che traccia il completamento incrementale dei sottocompiti rispetto ai tentativi precedenti, premiando le esplorazioni promettenti, e (2) un feedback linguistico intrinseco che distilla lezioni riutilizzabili in un buffer di memoria, recuperato tramite la nostra strategia proposta Similarity & Utility-Aware Upper Confidence Bound (SimUtil-UCB), che bilancia rilevanza, utilità ed esplorazione per sfruttare efficacemente le esperienze passate. Esperimenti estesi su due famiglie di modelli in quattro impegnativi compiti agentici dimostrano che RetroAgent supera significativamente i metodi esistenti, raggiungendo risultati all'avanguardia – ad esempio, superando gli agenti addestrati con Group Relative Policy Optimization (GRPO) del +18,3% su ALFWorld, +15,4% su WebShop, +27,1% su Sokoban e +8,9% su MineSweeper – mostrando al contempo una forte adattabilità al tempo di test e una buona generalizzazione a scenari fuori distribuzione.

English

Large language model (LLM)-based agents trained with reinforcement learning (RL) have shown strong potential on complex interactive tasks. However, standard RL paradigms favor static problem-solving over continuous adaptation: agents often converge to suboptimal strategies due to insufficient exploration, while learned knowledge remains implicit within parameters rather than explicitly retrievable, limiting effective experiential learning. To address these limitations, we introduce RetroAgent, an online RL framework that empowers agents to master complex interactive environments not just by solving, but by evolving. Concretely, RetroAgent features a hindsight self-reflection mechanism that produces dual intrinsic feedback: (1) intrinsic numerical feedback that that tracks incremental subtask completion relative to prior attempts, rewarding promising explorations, and (2) intrinsic language feedback that distills reusable lessons into a memory buffer, retrieved via our proposed Similarity & Utility-Aware Upper Confidence Bound (SimUtil-UCB) strategy balancing relevance, utility, and exploration to effectively leverage past experiences. Extensive experiments on two model families across four challenging agentic tasks demonstrate that RetroAgent significantly outperforms existing methods, achieving state-of-the-art results -- e.g., surpassing Group Relative Policy Optimization (GRPO)-trained agents by +18.3% on ALFWorld, +15.4% on WebShop, +27.1% on Sokoban, and +8.9% on MineSweeper -- while exhibiting strong test-time adaptation and generalization to out-of-distribution scenarios.

RetroAgent: Dalla Risoluzione all'Evoluzione tramite Feedback Intrinseco Duale Retrospettivo

RetroAgent: From Solving to Evolving via Retrospective Dual Intrinsic Feedback

Abstract

Support