No Más Retroalimentación Obsoleta: Co-evolución de Críticos para el Aprendizaje de Agentes en Mundos Abiertos
No More Stale Feedback: Co-Evolving Critics for Open-World Agent Learning
January 11, 2026
Autores: Zhicong Li, Lingjie Jiang, Yulan Hu, Xingchen Zeng, Yixia Li, Xiangwen Zhang, Guanhua Chen, Zheng Pan, Xin Li, Yong Liu
cs.AI
Resumen
El aprendizaje por refuerzo (RL) guiado por crítica ha surgido como un paradigma poderoso para entrenar agentes de LLM al aumentar las recompensas de resultado escasas con retroalimentación en lenguaje natural. Sin embargo, los métodos actuales a menudo dependen de modelos críticos estáticos o fuera de línea, que no logran adaptarse a medida que la política evoluciona. En el RL *on-policy*, los patrones de error del agente cambian con el tiempo, lo que hace que los críticos estacionarios se vuelvan obsoletos y proporcionen una retroalimentación de utilidad decreciente. Para abordar esto, presentamos ECHO (*Evolving Critic for Hindsight-Guided Optimization*), un marco que optimiza conjuntamente la política y el crítico a través de un bucle coevolutivo sincronizado. ECHO utiliza un mecanismo de despliegue en cascada donde el crítico genera múltiples diagnósticos para una trayectoria inicial, seguido de un refinamiento de la política para permitir una estimación de ventaja de estructura grupal. Abordamos el desafío de los estancamientos en el aprendizaje mediante un objetivo de modelado de ganancia consciente de la saturación, que recompensa al crítico por inducir mejoras incrementales en trayectorias de alto rendimiento. Al emplear actualizaciones GRPO de doble vía, ECHO garantiza que la retroalimentación del crítico se mantenga sincronizada con la política en evolución. Los resultados experimentales muestran que ECHO produce un entrenamiento más estable y un mayor éxito en tareas de horizonte largo en diversos entornos de mundo abierto.
English
Critique-guided reinforcement learning (RL) has emerged as a powerful paradigm for training LLM agents by augmenting sparse outcome rewards with natural-language feedback. However, current methods often rely on static or offline critic models, which fail to adapt as the policy evolves. In on-policy RL, the agent's error patterns shift over time, causing stationary critics to become stale and providing feedback of diminishing utility. To address this, we introduce ECHO (Evolving Critic for Hindsight-Guided Optimization)}, a framework that jointly optimizes the policy and critic through a synchronized co-evolutionary loop. ECHO utilizes a cascaded rollout mechanism where the critic generates multiple diagnoses for an initial trajectory, followed by policy refinement to enable group-structured advantage estimation. We address the challenge of learning plateaus via a saturation-aware gain shaping objective, which rewards the critic for inducing incremental improvements in high-performing trajectories. By employing dual-track GRPO updates, ECHO ensures the critic's feedback stays synchronized with the evolving policy. Experimental results show that ECHO yields more stable training and higher long-horizon task success across open-world environments.