ChatPaper.aiChatPaper

Agente-R: Addestramento di agenti modelli linguistici per riflettere tramite auto-addestramento iterativo

Agent-R: Training Language Model Agents to Reflect via Iterative Self-Training

January 20, 2025
Autori: Siyu Yuan, Zehui Chen, Zhiheng Xi, Junjie Ye, Zhengyin Du, Jiecao Chen
cs.AI

Abstract

Gli agenti Large Language Models (LLMs) sono sempre più cruciali per affrontare compiti complessi in ambienti interattivi. Il lavoro esistente si concentra principalmente sul miglioramento delle prestazioni attraverso il clonaggio del comportamento da esperti più forti, tuttavia tali approcci spesso falliscono nelle applicazioni reali, principalmente a causa dell'incapacità di riprendersi dagli errori. Tuttavia, i dati di critica a livello di passo sono difficili e costosi da raccogliere. Automatizzare e costruire dinamicamente set di auto-critica è quindi cruciale per dotare i modelli di capacità di agente intelligente. In questo lavoro, proponiamo un framework iterativo di auto-addestramento, Agent-R, che consente all'agente linguistico di Riflettere al volo. A differenza dei metodi tradizionali che premiano o penalizzano le azioni in base alla correttezza, Agent-R sfrutta MCTS per costruire dati di addestramento che recuperano traiettorie corrette da quelle errate. Una sfida chiave della riflessione dell'agente risiede nella necessità di una revisione tempestiva anziché aspettare fino alla fine di un rollout. Per affrontare ciò, introduciamo un meccanismo di costruzione della critica guidato dal modello: il modello attore identifica il primo passo errato (entro la sua capacità attuale) in una traiettoria fallita. Partendo da esso, lo uniamo al percorso corretto adiacente, che condivide lo stesso nodo genitore nell'albero. Questa strategia consente al modello di apprendere la riflessione basata sulla sua politica attuale, garantendo quindi una migliore efficienza nell'apprendimento. Per esplorare ulteriormente la scalabilità di questo paradigma di auto-miglioramento, indaghiamo il perfezionamento iterativo delle capacità di correzione degli errori e della costruzione del dataset. I nostri risultati dimostrano che Agent-R migliora continuamente la capacità del modello di riprendersi dagli errori e consente una correzione tempestiva degli errori. Gli esperimenti condotti su tre ambienti interattivi mostrano che Agent-R equipaggia efficacemente gli agenti per correggere azioni erronee evitando loop, ottenendo prestazioni superiori rispetto ai metodi di base (+5,59%).
English
Large Language Models (LLMs) agents are increasingly pivotal for addressing complex tasks in interactive environments. Existing work mainly focuses on enhancing performance through behavior cloning from stronger experts, yet such approaches often falter in real-world applications, mainly due to the inability to recover from errors. However, step-level critique data is difficult and expensive to collect. Automating and dynamically constructing self-critique datasets is thus crucial to empowering models with intelligent agent capabilities. In this work, we propose an iterative self-training framework, Agent-R, that enables language Agent to Reflect on the fly. Unlike traditional methods that reward or penalize actions based on correctness, Agent-R leverages MCTS to construct training data that recover correct trajectories from erroneous ones. A key challenge of agent reflection lies in the necessity for timely revision rather than waiting until the end of a rollout. To address this, we introduce a model-guided critique construction mechanism: the actor model identifies the first error step (within its current capability) in a failed trajectory. Starting from it, we splice it with the adjacent correct path, which shares the same parent node in the tree. This strategy enables the model to learn reflection based on its current policy, therefore yielding better learning efficiency. To further explore the scalability of this self-improvement paradigm, we investigate iterative refinement of both error correction capabilities and dataset construction. Our findings demonstrate that Agent-R continuously improves the model's ability to recover from errors and enables timely error correction. Experiments on three interactive environments show that Agent-R effectively equips agents to correct erroneous actions while avoiding loops, achieving superior performance compared to baseline methods (+5.59%).

Summary

AI-Generated Summary

PDF1052January 22, 2025