Évaluation de la génération de flux de travail agentique
Benchmarking Agentic Workflow Generation
October 10, 2024
Auteurs: Shuofei Qiao, Runnan Fang, Zhisong Qiu, Xiaobin Wang, Ningyu Zhang, Yong Jiang, Pengjun Xie, Fei Huang, Huajun Chen
cs.AI
Résumé
Les grands modèles de langage (LLM), avec leur capacité exceptionnelle à gérer une large gamme de tâches, ont permis des avancées significatives dans le traitement des tâches de raisonnement et de planification, où la décomposition de problèmes complexes en flux de travail exécutables est une étape cruciale de ce processus. Les cadres d'évaluation de flux de travail existants se concentrent soit uniquement sur la performance holistique, soit souffrent de limitations telles qu'une couverture de scénarios restreinte, des structures de flux de travail simplistes et des normes d'évaluation laxistes. À cette fin, nous introduisons WorFBench, un banc d'essai unifié pour la génération de flux de travail avec des scénarios multifacettes et des structures de flux de travail graphique complexes. De plus, nous présentons WorFEval, un protocole d'évaluation systémique utilisant des algorithmes de correspondance de sous-séquence et de sous-graphes pour quantifier avec précision les capacités de génération de flux de travail de l'agent LLM. À travers des évaluations approfondies sur différents types de LLM, nous découvrons des écarts distincts entre les capacités de planification de séquence et de planification de graphe des agents LLM, avec même GPT-4 présentant un écart d'environ 15%. Nous formons également deux modèles open-source et évaluons leurs capacités de généralisation sur des tâches retenues. De plus, nous observons que les flux de travail générés peuvent améliorer les tâches en aval, leur permettant d'atteindre des performances supérieures en moins de temps lors de l'inférence. Le code et l'ensemble de données seront disponibles sur https://github.com/zjunlp/WorFBench.
English
Large Language Models (LLMs), with their exceptional ability to handle a wide
range of tasks, have driven significant advancements in tackling reasoning and
planning tasks, wherein decomposing complex problems into executable workflows
is a crucial step in this process. Existing workflow evaluation frameworks
either focus solely on holistic performance or suffer from limitations such as
restricted scenario coverage, simplistic workflow structures, and lax
evaluation standards. To this end, we introduce WorFBench, a unified workflow
generation benchmark with multi-faceted scenarios and intricate graph workflow
structures. Additionally, we present WorFEval, a systemic evaluation protocol
utilizing subsequence and subgraph matching algorithms to accurately quantify
the LLM agent's workflow generation capabilities. Through comprehensive
evaluations across different types of LLMs, we discover distinct gaps between
the sequence planning capabilities and graph planning capabilities of LLM
agents, with even GPT-4 exhibiting a gap of around 15%. We also train two
open-source models and evaluate their generalization abilities on held-out
tasks. Furthermore, we observe that the generated workflows can enhance
downstream tasks, enabling them to achieve superior performance with less time
during inference. Code and dataset will be available at
https://github.com/zjunlp/WorFBench.Summary
AI-Generated Summary