Agente-R: Addestramento di agenti modelli linguistici per riflettere tramite auto-addestramento iterativoAgent-R: Training Language Model Agents to Reflect via Iterative
Self-Training
Gli agenti Large Language Models (LLMs) sono sempre più cruciali per affrontare compiti complessi in ambienti interattivi. Il lavoro esistente si concentra principalmente sul miglioramento delle prestazioni attraverso il clonaggio del comportamento da esperti più forti, tuttavia tali approcci spesso falliscono nelle applicazioni reali, principalmente a causa dell'incapacità di riprendersi dagli errori. Tuttavia, i dati di critica a livello di passo sono difficili e costosi da raccogliere. Automatizzare e costruire dinamicamente set di auto-critica è quindi cruciale per dotare i modelli di capacità di agente intelligente. In questo lavoro, proponiamo un framework iterativo di auto-addestramento, Agent-R, che consente all'agente linguistico di Riflettere al volo. A differenza dei metodi tradizionali che premiano o penalizzano le azioni in base alla correttezza, Agent-R sfrutta MCTS per costruire dati di addestramento che recuperano traiettorie corrette da quelle errate. Una sfida chiave della riflessione dell'agente risiede nella necessità di una revisione tempestiva anziché aspettare fino alla fine di un rollout. Per affrontare ciò, introduciamo un meccanismo di costruzione della critica guidato dal modello: il modello attore identifica il primo passo errato (entro la sua capacità attuale) in una traiettoria fallita. Partendo da esso, lo uniamo al percorso corretto adiacente, che condivide lo stesso nodo genitore nell'albero. Questa strategia consente al modello di apprendere la riflessione basata sulla sua politica attuale, garantendo quindi una migliore efficienza nell'apprendimento. Per esplorare ulteriormente la scalabilità di questo paradigma di auto-miglioramento, indaghiamo il perfezionamento iterativo delle capacità di correzione degli errori e della costruzione del dataset. I nostri risultati dimostrano che Agent-R migliora continuamente la capacità del modello di riprendersi dagli errori e consente una correzione tempestiva degli errori. Gli esperimenti condotti su tre ambienti interattivi mostrano che Agent-R equipaggia efficacemente gli agenti per correggere azioni erronee evitando loop, ottenendo prestazioni superiori rispetto ai metodi di base (+5,59%).