Explorar los fallos de expertos mejora el ajuste de agentes basados en modelos de lenguaje grandes (LLM)

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado un potencial enorme como agentes, destacándose en tareas que requieren múltiples rondas de razonamiento e interacciones. El Ajuste Fino por Muestreo de Rechazo (RFT, por sus siglas en inglés) ha surgido como un método efectivo para ajustar LLMs como agentes: primero imita trayectorias exitosas generadas por expertos y luego mejora las habilidades agentivas mediante ajustes iterativos en trayectorias exitosas generadas por el propio modelo. Sin embargo, dado que el experto (por ejemplo, GPT-4) tiene éxito principalmente en subtareas más simples y el RFT favorece inherentemente escenarios menos complejos, muchas subtareas complejas permanecen sin resolver y persistentemente fuera de distribución (OOD, por sus siglas en inglés). Al investigar estas subtareas desafiantes, descubrimos que las trayectorias fallidas previas del experto a menudo pueden proporcionar orientación valiosa, como planes y acciones clave, que pueden mejorar significativamente la eficiencia de exploración del agente y la adquisición de habilidades críticas. Motivados por estas observaciones, proponemos Exploración de Fallos de Expertos (EEF, por sus siglas en inglés), que identifica acciones beneficiosas de trayectorias fallidas del experto y las integra en el conjunto de datos de entrenamiento. Las acciones potencialmente perjudiciales se excluyen meticulosamente para evitar la contaminación del proceso de aprendizaje del modelo. Al aprovechar las acciones beneficiosas en los fallos del experto, EEF resuelve con éxito algunas subtareas previamente irresolubles y mejora el rendimiento del ajuste del agente. Notablemente, nuestro enfoque logró una tasa de éxito del 62% en WebShop, superando al RFT (53.6%) y a GPT-4 (35.6%), y, según nuestro conocimiento, estableciendo un nuevo estado del arte como el primer método en superar una puntuación de 0.81 en WebShop y exceder 81 en SciWorld.

English

Large Language Models (LLMs) have shown tremendous potential as agents, excelling at tasks that require multiple rounds of reasoning and interactions. Rejection Sampling Fine-Tuning (RFT) has emerged as an effective method for finetuning LLMs as agents: it first imitates expert-generated successful trajectories and further improves agentic skills through iterative fine-tuning on successful, self-generated trajectories. However, since the expert (e.g., GPT-4) succeeds primarily on simpler subtasks and RFT inherently favors simpler scenarios, many complex subtasks remain unsolved and persistently out-of-distribution (OOD). Upon investigating these challenging subtasks, we discovered that previously failed expert trajectories can often provide valuable guidance, e.g., plans and key actions, that can significantly improve agent exploration efficiency and acquisition of critical skills. Motivated by these observations, we propose Exploring Expert Failures (EEF), which identifies beneficial actions from failed expert trajectories and integrates them into the training dataset. Potentially harmful actions are meticulously excluded to prevent contamination of the model learning process. By leveraging the beneficial actions in expert failures, EEF successfully solves some previously unsolvable subtasks and improves agent tuning performance. Remarkably, our approach achieved a 62\% win rate in WebShop, outperforming RFT (53. 6\%) and GPT-4 (35. 6\%), and to the best of our knowledge, setting a new state-of-the-art as the first method to surpass a score of 0.81 in WebShop and exceed 81 in SciWorld.

Explorar los fallos de expertos mejora el ajuste de agentes basados en modelos de lenguaje grandes (LLM)

Exploring Expert Failures Improves LLM Agent Tuning

Resumen

Support