Explorer les échecs des experts améliore le réglage des agents LLM
Exploring Expert Failures Improves LLM Agent Tuning
April 17, 2025
Auteurs: Li-Cheng Lan, Andrew Bai, Minhao Cheng, Ruochen Wang, Cho-Jui Hsieh, Tianyi Zhou
cs.AI
Résumé
Les modèles de langage de grande taille (LLMs) ont démontré un potentiel considérable en tant qu'agents, excellant dans des tâches nécessitant plusieurs étapes de raisonnement et d'interactions. Le réglage fin par échantillonnage de rejet (RFT) s'est imposé comme une méthode efficace pour affiner les LLMs en tant qu'agents : il imite d'abord les trajectoires réussies générées par des experts, puis améliore davantage les compétences agentiques grâce à un réglage fin itératif sur des trajectoires auto-générées réussies. Cependant, puisque l'expert (par exemple, GPT-4) réussit principalement sur des sous-tâches plus simples et que le RFT favorise intrinsèquement des scénarios plus simples, de nombreuses sous-tâches complexes restent non résolues et persistent hors distribution (OOD). En examinant ces sous-tâches difficiles, nous avons découvert que les trajectoires d'experts précédemment échouées peuvent souvent fournir des indications précieuses, telles que des plans et des actions clés, qui peuvent considérablement améliorer l'efficacité de l'exploration de l'agent et l'acquisition de compétences critiques. Motivés par ces observations, nous proposons l'Exploration des Échecs Experts (EEF), qui identifie les actions bénéfiques dans les trajectoires d'experts échouées et les intègre dans l'ensemble de données d'entraînement. Les actions potentiellement nuisibles sont soigneusement exclues pour éviter de contaminer le processus d'apprentissage du modèle. En exploitant les actions bénéfiques dans les échecs d'experts, l'EEF résout avec succès certaines sous-tâches précédemment insolubles et améliore les performances de réglage de l'agent. De manière remarquable, notre approche a atteint un taux de réussite de 62\% dans WebShop, surpassant le RFT (53,6\%) et GPT-4 (35,6\%), et, à notre connaissance, établissant un nouvel état de l'art en tant que première méthode à dépasser un score de 0,81 dans WebShop et à excéder 81 dans SciWorld.
English
Large Language Models (LLMs) have shown tremendous potential as agents,
excelling at tasks that require multiple rounds of reasoning and interactions.
Rejection Sampling Fine-Tuning (RFT) has emerged as an effective method for
finetuning LLMs as agents: it first imitates expert-generated successful
trajectories and further improves agentic skills through iterative fine-tuning
on successful, self-generated trajectories. However, since the expert (e.g.,
GPT-4) succeeds primarily on simpler subtasks and RFT inherently favors simpler
scenarios, many complex subtasks remain unsolved and persistently
out-of-distribution (OOD). Upon investigating these challenging subtasks, we
discovered that previously failed expert trajectories can often provide
valuable guidance, e.g., plans and key actions, that can significantly improve
agent exploration efficiency and acquisition of critical skills. Motivated by
these observations, we propose Exploring Expert Failures (EEF), which
identifies beneficial actions from failed expert trajectories and integrates
them into the training dataset. Potentially harmful actions are meticulously
excluded to prevent contamination of the model learning process. By leveraging
the beneficial actions in expert failures, EEF successfully solves some
previously unsolvable subtasks and improves agent tuning performance.
Remarkably, our approach achieved a 62\% win rate in WebShop, outperforming RFT
(53. 6\%) and GPT-4 (35. 6\%), and to the best of our knowledge, setting a new
state-of-the-art as the first method to surpass a score of 0.81 in WebShop and
exceed 81 in SciWorld.Summary
AI-Generated Summary