ChatPaper.aiChatPaper

Оценка процесса генерации агентичных рабочих процессов

Benchmarking Agentic Workflow Generation

October 10, 2024
Авторы: Shuofei Qiao, Runnan Fang, Zhisong Qiu, Xiaobin Wang, Ningyu Zhang, Yong Jiang, Pengjun Xie, Fei Huang, Huajun Chen
cs.AI

Аннотация

Большие языковые модели (LLM) благодаря своей исключительной способности решать широкий спектр задач стимулировали значительные прорывы в решении задач рассуждения и планирования, где декомпозиция сложных проблем на исполнимые рабочие процессы является ключевым этапом этого процесса. Существующие фреймворки оценки рабочих процессов либо сосредотачиваются исключительно на общей производительности, либо страдают от ограничений, таких как ограниченное охват сценариев, упрощенные структуры рабочих процессов и недостаточно строгие стандарты оценки. В этой связи мы представляем WorFBench – единый бенчмарк для генерации рабочих процессов с многофакторными сценариями и сложными структурами графов рабочих процессов. Кроме того, мы представляем WorFEval – системный протокол оценки, использующий алгоритмы сопоставления подпоследовательностей и подграфов для точного количественного измерения способностей LLM-агента к генерации рабочих процессов. Проведя всесторонние оценки различных типов LLM, мы выявляем различия между способностями планирования последовательности и планирования графа у агентов LLM, даже у GPT-4 обнаруживается разрыв около 15%. Мы также обучаем две модели с открытым исходным кодом и оцениваем их способность к обобщению на удерживаемых задачах. Более того, мы замечаем, что сгенерированные рабочие процессы могут улучшить последующие задачи, позволяя им достигать более высокой производительности за меньшее время во время вывода. Код и набор данных будут доступны на https://github.com/zjunlp/WorFBench.
English
Large Language Models (LLMs), with their exceptional ability to handle a wide range of tasks, have driven significant advancements in tackling reasoning and planning tasks, wherein decomposing complex problems into executable workflows is a crucial step in this process. Existing workflow evaluation frameworks either focus solely on holistic performance or suffer from limitations such as restricted scenario coverage, simplistic workflow structures, and lax evaluation standards. To this end, we introduce WorFBench, a unified workflow generation benchmark with multi-faceted scenarios and intricate graph workflow structures. Additionally, we present WorFEval, a systemic evaluation protocol utilizing subsequence and subgraph matching algorithms to accurately quantify the LLM agent's workflow generation capabilities. Through comprehensive evaluations across different types of LLMs, we discover distinct gaps between the sequence planning capabilities and graph planning capabilities of LLM agents, with even GPT-4 exhibiting a gap of around 15%. We also train two open-source models and evaluate their generalization abilities on held-out tasks. Furthermore, we observe that the generated workflows can enhance downstream tasks, enabling them to achieve superior performance with less time during inference. Code and dataset will be available at https://github.com/zjunlp/WorFBench.
PDF272November 16, 2024