InstructExcel: Een Benchmark voor Natuurlijke Taalinstructies in Excel

Samenvatting

Met de evolutie van Large Language Models (LLMs) kunnen we steeds complexere NLP-taken oplossen in verschillende domeinen, waaronder spreadsheets. Dit onderzoek gaat na of LLMs code kunnen genereren (Excel OfficeScripts, een TypeScript API voor het uitvoeren van veel taken in Excel) die Excel-specifieke taken oplossen die worden aangeleverd via natuurlijke taalgebruikersinstructies. Hiervoor introduceren we een nieuwe grootschalige benchmark, InstructExcel, die is gemaakt door gebruik te maken van de 'Automatiseer'-functie in Excel om automatisch OfficeScripts te genereren op basis van gebruikersacties. Onze benchmark bevat meer dan 10k voorbeelden die 170+ Excel-bewerkingen bestrijken over 2.000 openbaar beschikbare Excel-spreadsheets. Experimenten in verschillende zero-shot en few-shot instellingen laten zien dat InstructExcel een uitdagende benchmark is voor state-of-the-art modellen zoals GPT-4. We observeren dat (1) het gebruik van GPT-4 in plaats van GPT-3.5, (2) het verstrekken van meer in-context voorbeelden, en (3) dynamische prompting de prestaties op deze benchmark kunnen verbeteren.

English

With the evolution of Large Language Models (LLMs) we can solve increasingly more complex NLP tasks across various domains, including spreadsheets. This work investigates whether LLMs can generate code (Excel OfficeScripts, a TypeScript API for executing many tasks in Excel) that solves Excel specific tasks provided via natural language user instructions. To do so we introduce a new large-scale benchmark, InstructExcel, created by leveraging the 'Automate' feature in Excel to automatically generate OfficeScripts from users' actions. Our benchmark includes over 10k samples covering 170+ Excel operations across 2,000 publicly available Excel spreadsheets. Experiments across various zero-shot and few-shot settings show that InstructExcel is a hard benchmark for state of the art models like GPT-4. We observe that (1) using GPT-4 over GPT-3.5, (2) providing more in-context examples, and (3) dynamic prompting can help improve performance on this benchmark.

InstructExcel: Een Benchmark voor Natuurlijke Taalinstructies in Excel

InstructExcel: A Benchmark for Natural Language Instruction in Excel

Samenvatting

Support