Agente-R: Entrenamiento de Agentes de Modelado de Lenguaje para Reflexionar a través de Autoentrenamiento Iterativo

Resumen

Los agentes de Modelos de Lenguaje Grandes (LLMs) son cada vez más fundamentales para abordar tareas complejas en entornos interactivos. El trabajo existente se centra principalmente en mejorar el rendimiento a través de la clonación de comportamientos de expertos más sólidos, sin embargo, dichos enfoques a menudo fallan en aplicaciones del mundo real, principalmente debido a la incapacidad de recuperarse de errores. Sin embargo, los datos de crítica a nivel de paso son difíciles y costosos de recopilar. Automatizar y construir dinámicamente conjuntos de datos de autocrítica es crucial para capacitar a los modelos con capacidades de agente inteligente. En este trabajo, proponemos un marco de autoentrenamiento iterativo, Agente-R, que permite al Agente de Lenguaje Reflexionar sobre la marcha. A diferencia de los métodos tradicionales que recompensan o penalizan acciones basadas en la corrección, Agente-R aprovecha MCTS para construir datos de entrenamiento que recuperan trayectorias correctas a partir de las erróneas. Un desafío clave de la reflexión del agente radica en la necesidad de una revisión oportuna en lugar de esperar hasta el final de una ejecución. Para abordar esto, introducimos un mecanismo de construcción de crítica guiado por el modelo: el modelo actor identifica el primer paso erróneo (dentro de su capacidad actual) en una trayectoria fallida. A partir de ahí, lo fusionamos con el camino correcto adyacente, que comparte el mismo nodo padre en el árbol. Esta estrategia permite que el modelo aprenda la reflexión basada en su política actual, logrando así una mejor eficiencia de aprendizaje. Para explorar aún más la escalabilidad de este paradigma de auto-mejora, investigamos el refinamiento iterativo tanto de las capacidades de corrección de errores como de la construcción del conjunto de datos. Nuestros hallazgos demuestran que Agente-R mejora continuamente la capacidad del modelo para recuperarse de errores y permite una corrección de errores oportuna. Experimentos en tres entornos interactivos muestran que Agente-R dota efectivamente a los agentes de la capacidad de corregir acciones erróneas evitando bucles, logrando un rendimiento superior en comparación con los métodos de referencia (+5.59%).

English

Large Language Models (LLMs) agents are increasingly pivotal for addressing complex tasks in interactive environments. Existing work mainly focuses on enhancing performance through behavior cloning from stronger experts, yet such approaches often falter in real-world applications, mainly due to the inability to recover from errors. However, step-level critique data is difficult and expensive to collect. Automating and dynamically constructing self-critique datasets is thus crucial to empowering models with intelligent agent capabilities. In this work, we propose an iterative self-training framework, Agent-R, that enables language Agent to Reflect on the fly. Unlike traditional methods that reward or penalize actions based on correctness, Agent-R leverages MCTS to construct training data that recover correct trajectories from erroneous ones. A key challenge of agent reflection lies in the necessity for timely revision rather than waiting until the end of a rollout. To address this, we introduce a model-guided critique construction mechanism: the actor model identifies the first error step (within its current capability) in a failed trajectory. Starting from it, we splice it with the adjacent correct path, which shares the same parent node in the tree. This strategy enables the model to learn reflection based on its current policy, therefore yielding better learning efficiency. To further explore the scalability of this self-improvement paradigm, we investigate iterative refinement of both error correction capabilities and dataset construction. Our findings demonstrate that Agent-R continuously improves the model's ability to recover from errors and enables timely error correction. Experiments on three interactive environments show that Agent-R effectively equips agents to correct erroneous actions while avoiding loops, achieving superior performance compared to baseline methods (+5.59%).

Agente-R: Entrenamiento de Agentes de Modelado de Lenguaje para Reflexionar a través de Autoentrenamiento Iterativo

Agent-R: Training Language Model Agents to Reflect via Iterative Self-Training

Resumen

Support