Benchmarking der generativen Workflow-Erstellung
Benchmarking Agentic Workflow Generation
October 10, 2024
Autoren: Shuofei Qiao, Runnan Fang, Zhisong Qiu, Xiaobin Wang, Ningyu Zhang, Yong Jiang, Pengjun Xie, Fei Huang, Huajun Chen
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben mit ihrer außergewöhnlichen Fähigkeit, eine Vielzahl von Aufgaben zu bewältigen, signifikante Fortschritte bei der Bewältigung von Denk- und Planungsaufgaben vorangetrieben, bei denen die Zerlegung komplexer Probleme in ausführbare Workflows ein entscheidender Schritt in diesem Prozess ist. Bestehende Workflow-Bewertungsrahmen konzentrieren sich entweder ausschließlich auf ganzheitliche Leistung oder leiden unter Einschränkungen wie begrenzter Szenarioabdeckung, simplen Workflow-Strukturen und laxen Bewertungsstandards. Zu diesem Zweck stellen wir WorFBench vor, einen vereinheitlichten Workflow-Generierungsbenchmark mit vielschichtigen Szenarien und komplexen Graph-Workflow-Strukturen. Darüber hinaus präsentieren wir WorFEval, ein systematisches Bewertungsprotokoll, das Subsequenz- und Subgraphen-Matching-Algorithmen verwendet, um die Workflow-Generierungsfähigkeiten des LLM-Agenten genau zu quantifizieren. Durch umfassende Bewertungen verschiedener Arten von LLMs entdecken wir deutliche Unterschiede zwischen den Sequenzplanungsfähigkeiten und den Graphplanungsfähigkeiten von LLM-Agenten, wobei selbst GPT-4 eine Lücke von etwa 15% aufweist. Wir trainieren auch zwei Open-Source-Modelle und bewerten ihre Verallgemeinerungsfähigkeiten bei zurückgehaltenen Aufgaben. Darüber hinaus beobachten wir, dass die generierten Workflows die nachgelagerten Aufgaben verbessern können, indem sie ihnen ermöglichen, eine überlegene Leistung mit weniger Zeit während der Inferenz zu erzielen. Der Code und der Datensatz sind verfügbar unter https://github.com/zjunlp/WorFBench.
English
Large Language Models (LLMs), with their exceptional ability to handle a wide
range of tasks, have driven significant advancements in tackling reasoning and
planning tasks, wherein decomposing complex problems into executable workflows
is a crucial step in this process. Existing workflow evaluation frameworks
either focus solely on holistic performance or suffer from limitations such as
restricted scenario coverage, simplistic workflow structures, and lax
evaluation standards. To this end, we introduce WorFBench, a unified workflow
generation benchmark with multi-faceted scenarios and intricate graph workflow
structures. Additionally, we present WorFEval, a systemic evaluation protocol
utilizing subsequence and subgraph matching algorithms to accurately quantify
the LLM agent's workflow generation capabilities. Through comprehensive
evaluations across different types of LLMs, we discover distinct gaps between
the sequence planning capabilities and graph planning capabilities of LLM
agents, with even GPT-4 exhibiting a gap of around 15%. We also train two
open-source models and evaluate their generalization abilities on held-out
tasks. Furthermore, we observe that the generated workflows can enhance
downstream tasks, enabling them to achieve superior performance with less time
during inference. Code and dataset will be available at
https://github.com/zjunlp/WorFBench.Summary
AI-Generated Summary