Esplorare gli errori degli esperti migliora l'ottimizzazione degli agenti LLM

Abstract

I Large Language Model (LLM) hanno dimostrato un enorme potenziale come agenti, eccellendo in compiti che richiedono più cicli di ragionamento e interazioni. Il Rejection Sampling Fine-Tuning (RFT) è emerso come un metodo efficace per affinare i LLM come agenti: prima imita le traiettorie di successo generate da esperti e migliora ulteriormente le capacità agentiche attraverso un fine-tuning iterativo su traiettorie di successo auto-generate. Tuttavia, poiché l'esperto (ad esempio, GPT-4) riesce principalmente in sottocompiti più semplici e il RFT favorisce intrinsecamente scenari meno complessi, molti sottocompiti complessi rimangono irrisolti e persistentemente fuori distribuzione (OOD). Analizzando questi sottocompiti impegnativi, abbiamo scoperto che le traiettorie fallite precedentemente generate dall'esperto possono spesso fornire indicazioni preziose, come piani e azioni chiave, che possono migliorare significativamente l'efficienza dell'esplorazione dell'agente e l'acquisizione di competenze critiche. Motivati da queste osservazioni, proponiamo Exploring Expert Failures (EEF), che identifica azioni benefiche dalle traiettorie fallite degli esperti e le integra nel dataset di addestramento. Le azioni potenzialmente dannose vengono accuratamente escluse per evitare di contaminare il processo di apprendimento del modello. Sfruttando le azioni benefiche nei fallimenti degli esperti, l'EEF risolve con successo alcuni sottocompiti precedentemente irrisolvibili e migliora le prestazioni di ottimizzazione dell'agente. In modo notevole, il nostro approccio ha raggiunto un tasso di successo del 62% in WebShop, superando il RFT (53,6%) e GPT-4 (35,6%), e, per quanto ne sappiamo, stabilendo un nuovo stato dell'arte come primo metodo a superare un punteggio di 0,81 in WebShop e a superare 81 in SciWorld.

English

Large Language Models (LLMs) have shown tremendous potential as agents, excelling at tasks that require multiple rounds of reasoning and interactions. Rejection Sampling Fine-Tuning (RFT) has emerged as an effective method for finetuning LLMs as agents: it first imitates expert-generated successful trajectories and further improves agentic skills through iterative fine-tuning on successful, self-generated trajectories. However, since the expert (e.g., GPT-4) succeeds primarily on simpler subtasks and RFT inherently favors simpler scenarios, many complex subtasks remain unsolved and persistently out-of-distribution (OOD). Upon investigating these challenging subtasks, we discovered that previously failed expert trajectories can often provide valuable guidance, e.g., plans and key actions, that can significantly improve agent exploration efficiency and acquisition of critical skills. Motivated by these observations, we propose Exploring Expert Failures (EEF), which identifies beneficial actions from failed expert trajectories and integrates them into the training dataset. Potentially harmful actions are meticulously excluded to prevent contamination of the model learning process. By leveraging the beneficial actions in expert failures, EEF successfully solves some previously unsolvable subtasks and improves agent tuning performance. Remarkably, our approach achieved a 62\% win rate in WebShop, outperforming RFT (53. 6\%) and GPT-4 (35. 6\%), and to the best of our knowledge, setting a new state-of-the-art as the first method to surpass a score of 0.81 in WebShop and exceed 81 in SciWorld.

Esplorare gli errori degli esperti migliora l'ottimizzazione degli agenti LLM

Exploring Expert Failures Improves LLM Agent Tuning

Abstract

Support