ChatPaper.aiChatPaper

Evaluación del Generación de Flujo de Trabajo Agente

Benchmarking Agentic Workflow Generation

October 10, 2024
Autores: Shuofei Qiao, Runnan Fang, Zhisong Qiu, Xiaobin Wang, Ningyu Zhang, Yong Jiang, Pengjun Xie, Fei Huang, Huajun Chen
cs.AI

Resumen

Los Modelos de Lenguaje de Gran Tamaño (LLMs), con su excepcional capacidad para abordar una amplia gama de tareas, han impulsado avances significativos en la resolución de tareas de razonamiento y planificación, donde descomponer problemas complejos en flujos de trabajo ejecutables es un paso crucial en este proceso. Los marcos de evaluación de flujos de trabajo existentes se centran únicamente en el rendimiento holístico o presentan limitaciones como cobertura de escenarios restringida, estructuras de flujo de trabajo simplistas y estándares de evaluación laxos. Con este fin, presentamos WorFBench, un banco unificado de generación de flujos de trabajo con escenarios multifacéticos y estructuras de flujo de gráficos intrincadas. Además, introducimos WorFEval, un protocolo de evaluación sistemático que utiliza algoritmos de coincidencia de subsecuencias y subgráficos para cuantificar con precisión las capacidades de generación de flujos de trabajo del agente LLM. A través de evaluaciones exhaustivas en diferentes tipos de LLMs, descubrimos brechas distintas entre las capacidades de planificación de secuencias y de gráficos de los agentes LLM, incluso GPT-4 exhibe una brecha de alrededor del 15%. También entrenamos dos modelos de código abierto y evaluamos sus capacidades de generalización en tareas reservadas. Además, observamos que los flujos de trabajo generados pueden mejorar las tareas posteriores, permitiéndoles lograr un rendimiento superior en menos tiempo durante la inferencia. El código y el conjunto de datos estarán disponibles en https://github.com/zjunlp/WorFBench.
English
Large Language Models (LLMs), with their exceptional ability to handle a wide range of tasks, have driven significant advancements in tackling reasoning and planning tasks, wherein decomposing complex problems into executable workflows is a crucial step in this process. Existing workflow evaluation frameworks either focus solely on holistic performance or suffer from limitations such as restricted scenario coverage, simplistic workflow structures, and lax evaluation standards. To this end, we introduce WorFBench, a unified workflow generation benchmark with multi-faceted scenarios and intricate graph workflow structures. Additionally, we present WorFEval, a systemic evaluation protocol utilizing subsequence and subgraph matching algorithms to accurately quantify the LLM agent's workflow generation capabilities. Through comprehensive evaluations across different types of LLMs, we discover distinct gaps between the sequence planning capabilities and graph planning capabilities of LLM agents, with even GPT-4 exhibiting a gap of around 15%. We also train two open-source models and evaluate their generalization abilities on held-out tasks. Furthermore, we observe that the generated workflows can enhance downstream tasks, enabling them to achieve superior performance with less time during inference. Code and dataset will be available at https://github.com/zjunlp/WorFBench.

Summary

AI-Generated Summary

PDF272November 16, 2024