RetroAgent: De la Resolución a la Evolución mediante Retroalimentación Dual Intrínseca Retrospectiva

Resumen

Los agentes basados en modelos de lenguaje grande (LLM) entrenados con aprendizaje por refuerzo (RL) han demostrado un gran potencial en tareas interactivas complejas. Sin embargo, los paradigmas estándar de RL favorecen la resolución estática de problemas sobre la adaptación continua: los agentes a menudo convergen en estrategias subóptimas debido a una exploración insuficiente, mientras que el conocimiento aprendido permanece implícito dentro de los parámetros en lugar de ser explícitamente recuperable, lo que limita el aprendizaje experiencial efectivo. Para abordar estas limitaciones, presentamos RetroAgent, un marco de RL en línea que permite a los agentes dominar entornos interactivos complejos no solo resolviendo, sino evolucionando. Concretamente, RetroAgent presenta un mecanismo de autorreflexión retrospectiva (hindsight) que produce retroalimentación intrínseca dual: (1) una retroalimentación numérica intrínseca que rastrea la finalización incremental de subtareas en relación con intentos anteriores, recompensando exploraciones prometedoras, y (2) una retroalimentación lingüística intrínseca que destila lecciones reutilizables en un búfer de memoria, recuperado mediante nuestra estrategia propuesta Límite Superior de Confianza Consciente de Similitud y Utilidad (SimUtil-UCB), que equilibra la relevancia, la utilidad y la exploración para aprovechar efectivamente experiencias pasadas. Experimentos exhaustivos en dos familias de modelos a través de cuatro tareas agenticas desafiantes demuestran que RetroAgent supera significativamente a los métodos existentes, logrando resultados de vanguardia —por ejemplo, superando a los agentes entrenados con Optimización de Políticas Relativas de Grupo (GRPO) en un +18.3% en ALFWorld, +15.4% en WebShop, +27.1% en Sokoban y +8.9% en MineSweeper— mientras exhibe una fuerte adaptación en tiempo de prueba y generalización a escenarios fuera de distribución.

English

Large language model (LLM)-based agents trained with reinforcement learning (RL) have shown strong potential on complex interactive tasks. However, standard RL paradigms favor static problem-solving over continuous adaptation: agents often converge to suboptimal strategies due to insufficient exploration, while learned knowledge remains implicit within parameters rather than explicitly retrievable, limiting effective experiential learning. To address these limitations, we introduce RetroAgent, an online RL framework that empowers agents to master complex interactive environments not just by solving, but by evolving. Concretely, RetroAgent features a hindsight self-reflection mechanism that produces dual intrinsic feedback: (1) intrinsic numerical feedback that that tracks incremental subtask completion relative to prior attempts, rewarding promising explorations, and (2) intrinsic language feedback that distills reusable lessons into a memory buffer, retrieved via our proposed Similarity & Utility-Aware Upper Confidence Bound (SimUtil-UCB) strategy balancing relevance, utility, and exploration to effectively leverage past experiences. Extensive experiments on two model families across four challenging agentic tasks demonstrate that RetroAgent significantly outperforms existing methods, achieving state-of-the-art results -- e.g., surpassing Group Relative Policy Optimization (GRPO)-trained agents by +18.3% on ALFWorld, +15.4% on WebShop, +27.1% on Sokoban, and +8.9% on MineSweeper -- while exhibiting strong test-time adaptation and generalization to out-of-distribution scenarios.

RetroAgent: De la Resolución a la Evolución mediante Retroalimentación Dual Intrínseca Retrospectiva

RetroAgent: From Solving to Evolving via Retrospective Dual Intrinsic Feedback

Resumen

Support