Valutazione della generazione di flussi di lavoro agentici
Benchmarking Agentic Workflow Generation
October 10, 2024
Autori: Shuofei Qiao, Runnan Fang, Zhisong Qiu, Xiaobin Wang, Ningyu Zhang, Yong Jiang, Pengjun Xie, Fei Huang, Huajun Chen
cs.AI
Abstract
I Large Language Models (LLM), con la loro eccezionale capacità di gestire una vasta gamma di compiti, hanno guidato significativi progressi nel affrontare compiti di ragionamento e pianificazione, in cui scomporre problemi complessi in flussi di lavoro eseguibili è un passo cruciale in questo processo. I framework esistenti per la valutazione dei flussi di lavoro si concentrano esclusivamente sulle prestazioni o soffrono di limitazioni come una copertura scenari limitata, strutture di flusso di lavoro semplicistiche e standard di valutazione poco rigorosi. A questo scopo, presentiamo WorFBench, un benchmark unificato per la generazione di flussi di lavoro con scenari multifacetati e strutture di flusso di lavoro a grafo intricate. Inoltre, presentiamo WorFEval, un protocollo di valutazione sistemico che utilizza algoritmi di corrispondenza di sottosequenze e sottografi per quantificare accuratamente le capacità di generazione di flussi di lavoro dell'agente LLM. Attraverso valutazioni approfondite su diversi tipi di LLM, scopriamo distinte differenze tra le capacità di pianificazione sequenziale e le capacità di pianificazione a grafo degli agenti LLM, con persino GPT-4 che mostra una differenza di circa il 15%. Alleniamo inoltre due modelli open-source e valutiamo le loro capacità di generalizzazione su compiti non visti in precedenza. Inoltre, osserviamo che i flussi di lavoro generati possono migliorare i compiti successivi, consentendo loro di ottenere prestazioni superiori con meno tempo durante l'inferenza. Il codice e il dataset saranno disponibili su https://github.com/zjunlp/WorFBench.
English
Large Language Models (LLMs), with their exceptional ability to handle a wide
range of tasks, have driven significant advancements in tackling reasoning and
planning tasks, wherein decomposing complex problems into executable workflows
is a crucial step in this process. Existing workflow evaluation frameworks
either focus solely on holistic performance or suffer from limitations such as
restricted scenario coverage, simplistic workflow structures, and lax
evaluation standards. To this end, we introduce WorFBench, a unified workflow
generation benchmark with multi-faceted scenarios and intricate graph workflow
structures. Additionally, we present WorFEval, a systemic evaluation protocol
utilizing subsequence and subgraph matching algorithms to accurately quantify
the LLM agent's workflow generation capabilities. Through comprehensive
evaluations across different types of LLMs, we discover distinct gaps between
the sequence planning capabilities and graph planning capabilities of LLM
agents, with even GPT-4 exhibiting a gap of around 15%. We also train two
open-source models and evaluate their generalization abilities on held-out
tasks. Furthermore, we observe that the generated workflows can enhance
downstream tasks, enabling them to achieve superior performance with less time
during inference. Code and dataset will be available at
https://github.com/zjunlp/WorFBench.