ChatPaper.aiChatPaper

Die Untersuchung von Expertenfehlern verbessert das Tuning von LLM-Agenten.

Exploring Expert Failures Improves LLM Agent Tuning

April 17, 2025
Autoren: Li-Cheng Lan, Andrew Bai, Minhao Cheng, Ruochen Wang, Cho-Jui Hsieh, Tianyi Zhou
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) haben ein enormes Potenzial als Agenten gezeigt und glänzen bei Aufgaben, die mehrere Runden von Schlussfolgerungen und Interaktionen erfordern. Rejection Sampling Fine-Tuning (RFT) hat sich als effektive Methode zur Feinabstimmung von LLMs als Agenten erwiesen: Es imitiert zunächst erfolgreiche Trajektorien, die von Experten generiert wurden, und verbessert die agentischen Fähigkeiten weiter durch iterative Feinabstimmung anhand erfolgreicher, selbstgenerierter Trajektorien. Da der Experte (z. B. GPT-4) jedoch hauptsächlich bei einfacheren Teilaufgaben erfolgreich ist und RFT inhärent einfachere Szenarien bevorzugt, bleiben viele komplexe Teilaufgaben ungelöst und dauerhaft außerhalb der Verteilung (OOD). Bei der Untersuchung dieser anspruchsvollen Teilaufgaben stellten wir fest, dass zuvor gescheiterte Experten-Trajektorien oft wertvolle Hinweise liefern können, z. B. Pläne und Schlüsselaktionen, die die Effizienz der Agenten-Exploration und den Erwerb kritischer Fähigkeiten erheblich verbessern können. Motiviert durch diese Beobachtungen schlagen wir Exploring Expert Failures (EEF) vor, das nützliche Aktionen aus gescheiterten Experten-Trajektorien identifiziert und in den Trainingsdatensatz integriert. Potenziell schädliche Aktionen werden sorgfältig ausgeschlossen, um eine Kontamination des Modelllernprozesses zu verhindern. Durch die Nutzung der nützlichen Aktionen in Expertenfehlern löst EEF erfolgreich einige zuvor unlösbare Teilaufgaben und verbessert die Leistung der Agenten-Feinabstimmung. Bemerkenswerterweise erreichte unser Ansatz eine Gewinnrate von 62 % in WebShop, übertraf damit RFT (53,6 %) und GPT-4 (35,6 %) und setzte nach unserem Wissen einen neuen State-of-the-art als erste Methode, die einen Score von 0,81 in WebShop überschritt und 81 in SciWorld übertraf.
English
Large Language Models (LLMs) have shown tremendous potential as agents, excelling at tasks that require multiple rounds of reasoning and interactions. Rejection Sampling Fine-Tuning (RFT) has emerged as an effective method for finetuning LLMs as agents: it first imitates expert-generated successful trajectories and further improves agentic skills through iterative fine-tuning on successful, self-generated trajectories. However, since the expert (e.g., GPT-4) succeeds primarily on simpler subtasks and RFT inherently favors simpler scenarios, many complex subtasks remain unsolved and persistently out-of-distribution (OOD). Upon investigating these challenging subtasks, we discovered that previously failed expert trajectories can often provide valuable guidance, e.g., plans and key actions, that can significantly improve agent exploration efficiency and acquisition of critical skills. Motivated by these observations, we propose Exploring Expert Failures (EEF), which identifies beneficial actions from failed expert trajectories and integrates them into the training dataset. Potentially harmful actions are meticulously excluded to prevent contamination of the model learning process. By leveraging the beneficial actions in expert failures, EEF successfully solves some previously unsolvable subtasks and improves agent tuning performance. Remarkably, our approach achieved a 62\% win rate in WebShop, outperforming RFT (53. 6\%) and GPT-4 (35. 6\%), and to the best of our knowledge, setting a new state-of-the-art as the first method to surpass a score of 0.81 in WebShop and exceed 81 in SciWorld.

Summary

AI-Generated Summary

PDF114April 18, 2025