Agent-R : Entraînement d'agents de modélisation linguistique pour la réflexion via un auto-entraînement itératif

papers.abstract

Les grands modèles de langage (LLM) sont de plus en plus essentiels pour aborder des tâches complexes dans des environnements interactifs. Les travaux existants se concentrent principalement sur l'amélioration des performances grâce à la clonage de comportement à partir d'experts plus forts, cependant, de telles approches échouent souvent dans des applications du monde réel, principalement en raison de l'incapacité à récupérer des erreurs. Cependant, les données de critique au niveau de l'étape sont difficiles et coûteuses à collecter. Automatiser et construire dynamiquement des ensembles de données d'auto-critique est donc crucial pour doter les modèles de capacités d'agent intelligent. Dans ce travail, nous proposons un cadre d'auto-formation itératif, Agent-R, qui permet à l'agent de langage de réfléchir en temps réel. Contrairement aux méthodes traditionnelles qui récompensent ou pénalisent les actions en fonction de leur correction, Agent-R exploite MCTS pour construire des données d'entraînement qui récupèrent des trajectoires correctes à partir de celles erronées. Un défi clé de la réflexion de l'agent réside dans la nécessité d'une révision rapide plutôt que d'attendre la fin d'un déploiement. Pour y remédier, nous introduisons un mécanisme de construction de critique guidé par le modèle : le modèle d'acteur identifie la première étape d'erreur (dans sa capacité actuelle) dans une trajectoire échouée. À partir de là, nous la fusionnons avec le chemin correct adjacent, qui partage le même nœud parent dans l'arbre. Cette stratégie permet au modèle d'apprendre la réflexion en fonction de sa politique actuelle, offrant ainsi une meilleure efficacité d'apprentissage. Pour explorer davantage la scalabilité de ce paradigme d'auto-amélioration, nous étudions le raffinement itératif des capacités de correction d'erreur et de construction de jeu de données. Nos résultats démontrent qu'Agent-R améliore continuellement la capacité du modèle à récupérer des erreurs et permet une correction d'erreur en temps opportun. Des expériences menées sur trois environnements interactifs montrent qu'Agent-R dote efficacement les agents de la capacité de corriger des actions erronées tout en évitant les boucles, atteignant des performances supérieures par rapport aux méthodes de base (+5,59%).

English

Large Language Models (LLMs) agents are increasingly pivotal for addressing complex tasks in interactive environments. Existing work mainly focuses on enhancing performance through behavior cloning from stronger experts, yet such approaches often falter in real-world applications, mainly due to the inability to recover from errors. However, step-level critique data is difficult and expensive to collect. Automating and dynamically constructing self-critique datasets is thus crucial to empowering models with intelligent agent capabilities. In this work, we propose an iterative self-training framework, Agent-R, that enables language Agent to Reflect on the fly. Unlike traditional methods that reward or penalize actions based on correctness, Agent-R leverages MCTS to construct training data that recover correct trajectories from erroneous ones. A key challenge of agent reflection lies in the necessity for timely revision rather than waiting until the end of a rollout. To address this, we introduce a model-guided critique construction mechanism: the actor model identifies the first error step (within its current capability) in a failed trajectory. Starting from it, we splice it with the adjacent correct path, which shares the same parent node in the tree. This strategy enables the model to learn reflection based on its current policy, therefore yielding better learning efficiency. To further explore the scalability of this self-improvement paradigm, we investigate iterative refinement of both error correction capabilities and dataset construction. Our findings demonstrate that Agent-R continuously improves the model's ability to recover from errors and enables timely error correction. Experiments on three interactive environments show that Agent-R effectively equips agents to correct erroneous actions while avoiding loops, achieving superior performance compared to baseline methods (+5.59%).

Agent-R : Entraînement d'agents de modélisation linguistique pour la réflexion via un auto-entraînement itératif

Agent-R: Training Language Model Agents to Reflect via Iterative Self-Training

papers.abstract

Support