Avaliação da Geração de Fluxo de Trabalho Agente.
Benchmarking Agentic Workflow Generation
October 10, 2024
Autores: Shuofei Qiao, Runnan Fang, Zhisong Qiu, Xiaobin Wang, Ningyu Zhang, Yong Jiang, Pengjun Xie, Fei Huang, Huajun Chen
cs.AI
Resumo
Os Modelos de Linguagem de Grande Escala (LLMs), com sua capacidade excepcional de lidar com uma ampla gama de tarefas, impulsionaram avanços significativos no enfrentamento de tarefas de raciocínio e planejamento, em que a decomposição de problemas complexos em fluxos de trabalho executáveis é um passo crucial nesse processo. Os frameworks existentes de avaliação de fluxo de trabalho geralmente se concentram apenas no desempenho holístico ou sofrem de limitações como cobertura de cenários restrita, estruturas de fluxo de trabalho simplistas e padrões de avaliação frouxos. Com esse propósito, apresentamos o WorFBench, um benchmark unificado de geração de fluxo de trabalho com cenários multifacetados e estruturas de fluxo de trabalho em grafo intrincadas. Além disso, apresentamos o WorFEval, um protocolo de avaliação sistemático que utiliza algoritmos de correspondência de subsequências e subgrafos para quantificar com precisão as capacidades de geração de fluxo de trabalho do agente LLM. Através de avaliações abrangentes em diferentes tipos de LLMs, descobrimos lacunas distintas entre as capacidades de planejamento de sequência e de grafo dos agentes LLM, com até mesmo o GPT-4 exibindo uma lacuna de cerca de 15%. Também treinamos dois modelos de código aberto e avaliamos suas capacidades de generalização em tarefas retidas. Além disso, observamos que os fluxos de trabalho gerados podem aprimorar tarefas subsequentes, permitindo que alcancem desempenho superior com menos tempo durante a inferência. O código e o conjunto de dados estarão disponíveis em https://github.com/zjunlp/WorFBench.
English
Large Language Models (LLMs), with their exceptional ability to handle a wide
range of tasks, have driven significant advancements in tackling reasoning and
planning tasks, wherein decomposing complex problems into executable workflows
is a crucial step in this process. Existing workflow evaluation frameworks
either focus solely on holistic performance or suffer from limitations such as
restricted scenario coverage, simplistic workflow structures, and lax
evaluation standards. To this end, we introduce WorFBench, a unified workflow
generation benchmark with multi-faceted scenarios and intricate graph workflow
structures. Additionally, we present WorFEval, a systemic evaluation protocol
utilizing subsequence and subgraph matching algorithms to accurately quantify
the LLM agent's workflow generation capabilities. Through comprehensive
evaluations across different types of LLMs, we discover distinct gaps between
the sequence planning capabilities and graph planning capabilities of LLM
agents, with even GPT-4 exhibiting a gap of around 15%. We also train two
open-source models and evaluate their generalization abilities on held-out
tasks. Furthermore, we observe that the generated workflows can enhance
downstream tasks, enabling them to achieve superior performance with less time
during inference. Code and dataset will be available at
https://github.com/zjunlp/WorFBench.Summary
AI-Generated Summary