ChatPaper.aiChatPaper

Benchmarking van Agentic Workflow-generatie

Benchmarking Agentic Workflow Generation

October 10, 2024
Auteurs: Shuofei Qiao, Runnan Fang, Zhisong Qiu, Xiaobin Wang, Ningyu Zhang, Yong Jiang, Pengjun Xie, Fei Huang, Huajun Chen
cs.AI

Samenvatting

Grote Taalmodellen (LLM's), met hun uitzonderlijke vermogen om een breed scala aan taken aan te kunnen, hebben significante vooruitgang geboekt in het aanpakken van redeneer- en plannings taken, waarbij het ontleden van complexe problemen in uitvoerbare workflows een cruciale stap in dit proces is. Bestaande workflow evaluatiekaders richten zich ofwel uitsluitend op holistische prestaties of kampen met beperkingen zoals beperkte scenario dekking, simplistische workflow structuren en lakse evaluatiestandaarden. Met dit doel introduceren we WorFBench, een verenigd workflow generatie benchmark met veelzijdige scenario's en ingewikkelde grafische workflow structuren. Daarnaast presenteren we WorFEval, een systematisch evaluatieprotocol dat subreeks- en subgrafiek-matching algoritmes gebruikt om nauwkeurig de workflow generatiecapaciteiten van de LLM-agent te kwantificeren. Door uitgebreide evaluaties over verschillende soorten LLM's ontdekken we duidelijke verschillen tussen de sequentieplanningscapaciteiten en grafiekplanningscapaciteiten van LLM-agenten, waarbij zelfs GPT-4 een verschil van ongeveer 15% vertoont. We trainen ook twee open-source modellen en evalueren hun generalisatievermogen op achtergehouden taken. Bovendien observeren we dat de gegenereerde workflows downstream taken kunnen verbeteren, waardoor ze superieure prestaties kunnen behalen met minder tijd tijdens inferentie. Code en dataset zijn beschikbaar op https://github.com/zjunlp/WorFBench.
English
Large Language Models (LLMs), with their exceptional ability to handle a wide range of tasks, have driven significant advancements in tackling reasoning and planning tasks, wherein decomposing complex problems into executable workflows is a crucial step in this process. Existing workflow evaluation frameworks either focus solely on holistic performance or suffer from limitations such as restricted scenario coverage, simplistic workflow structures, and lax evaluation standards. To this end, we introduce WorFBench, a unified workflow generation benchmark with multi-faceted scenarios and intricate graph workflow structures. Additionally, we present WorFEval, a systemic evaluation protocol utilizing subsequence and subgraph matching algorithms to accurately quantify the LLM agent's workflow generation capabilities. Through comprehensive evaluations across different types of LLMs, we discover distinct gaps between the sequence planning capabilities and graph planning capabilities of LLM agents, with even GPT-4 exhibiting a gap of around 15%. We also train two open-source models and evaluate their generalization abilities on held-out tasks. Furthermore, we observe that the generated workflows can enhance downstream tasks, enabling them to achieve superior performance with less time during inference. Code and dataset will be available at https://github.com/zjunlp/WorFBench.

Summary

AI-Generated Summary

PDF272November 16, 2024