ChatPaper.aiChatPaper

PPTC 벤치마크: 파워포인트 작업 완성을 위한 대규모 언어 모델 평가

PPTC Benchmark: Evaluating Large Language Models for PowerPoint Task Completion

November 3, 2023
저자: Yiduo Guo, Zekai Zhang, Yaobo Liang, Dongyan Zhao, Duan Nan
cs.AI

초록

최근 대규모 언어 모델(LLMs)의 평가는 기본적인 자연어 작업에 대한 제로샷/퓨샷 능력과 지시사항을 도구 API로 변환하는 능력을 테스트하는 데 초점이 맞춰져 왔습니다. 그러나 복잡한 다중 모달 환경에서 복잡한 도구를 활용하여 다중 턴, 다중 모달 지시사항을 완료하는 LLMs의 평가는 아직 연구되지 않았습니다. 이러한 격차를 해결하기 위해, 우리는 사용자 지시에 따라 PPT 파일을 생성하고 편집하는 LLMs의 능력을 평가하기 위한 PowerPoint 작업 완료(PPTC) 벤치마크를 소개합니다. 이 벤치마크는 다양한 주제를 다루는 279개의 다중 턴 세션과 다중 모달 작업을 포함하는 수백 개의 지시사항을 포함합니다. 또한, 우리는 LLMs가 레이블 API 시퀀스가 아닌 예측 파일을 기반으로 지시사항을 완료했는지 평가하는 PPTX-Match 평가 시스템을 제안합니다. 이 시스템은 다양한 LLM 생성 API 시퀀스를 지원합니다. 우리는 3개의 폐쇄형 LLMs와 6개의 오픈소스 LLMs를 측정했습니다. 결과는 GPT-4가 단일 턴 대화 테스트에서 75.1%의 정확도로 다른 LLMs를 능가하지만, 전체 세션을 완료하는 데는 어려움을 겪어 단 6%의 세션 정확도를 달성했음을 보여줍니다. 우리는 벤치마크에서 세 가지 주요 오류 원인을 발견했습니다: 다중 턴 세션에서의 오류 누적, 긴 PPT 템플릿 처리, 그리고 다중 모달리티 인식. 이러한 문제들은 향후 LLM 및 에이전트 시스템에 큰 도전을 제기합니다. 우리는 PPTC의 데이터, 코드, 평가 시스템을 https://github.com/gydpku/PPTC에서 공개합니다.
English
Recent evaluations of Large Language Models (LLMs) have centered around testing their zero-shot/few-shot capabilities for basic natural language tasks and their ability to translate instructions into tool APIs. However, the evaluation of LLMs utilizing complex tools to finish multi-turn, multi-modal instructions in a complex multi-modal environment has not been investigated. To address this gap, we introduce the PowerPoint Task Completion (PPTC) benchmark to assess LLMs' ability to create and edit PPT files based on user instructions. It contains 279 multi-turn sessions covering diverse topics and hundreds of instructions involving multi-modal operations. We also propose the PPTX-Match Evaluation System that evaluates if LLMs finish the instruction based on the prediction file rather than the label API sequence, thus it supports various LLM-generated API sequences. We measure 3 closed LLMs and 6 open-source LLMs. The results show that GPT-4 outperforms other LLMs with 75.1\% accuracy in single-turn dialogue testing but faces challenges in completing entire sessions, achieving just 6\% session accuracy. We find three main error causes in our benchmark: error accumulation in the multi-turn session, long PPT template processing, and multi-modality perception. These pose great challenges for future LLM and agent systems. We release the data, code, and evaluation system of PPTC at https://github.com/gydpku/PPTC.
PDF212December 15, 2024