ChatPaper.aiChatPaper

InstructExcel : Un benchmark pour les instructions en langage naturel dans Excel

InstructExcel: A Benchmark for Natural Language Instruction in Excel

October 23, 2023
Auteurs: Justin Payan, Swaroop Mishra, Mukul Singh, Carina Negreanu, Christian Poelitz, Chitta Baral, Subhro Roy, Rasika Chakravarthy, Benjamin Van Durme, Elnaz Nouri
cs.AI

Résumé

Avec l'évolution des modèles de langage de grande taille (LLMs), nous pouvons résoudre des tâches de traitement du langage naturel (NLP) de plus en plus complexes dans divers domaines, y compris les feuilles de calcul. Ce travail étudie si les LLMs peuvent générer du code (Excel OfficeScripts, une API TypeScript pour exécuter de nombreuses tâches dans Excel) qui résout des tâches spécifiques à Excel fournies via des instructions utilisateur en langage naturel. Pour ce faire, nous introduisons un nouveau benchmark à grande échelle, InstructExcel, créé en exploitant la fonctionnalité 'Automatiser' d'Excel pour générer automatiquement des OfficeScripts à partir des actions des utilisateurs. Notre benchmark comprend plus de 10 000 échantillons couvrant plus de 170 opérations Excel sur 2 000 feuilles de calcul Excel publiquement disponibles. Les expériences menées dans divers contextes zero-shot et few-shot montrent qu'InstructExcel est un benchmark difficile pour les modèles de pointe comme GPT-4. Nous observons que (1) l'utilisation de GPT-4 plutôt que GPT-3.5, (2) la fourniture de plus d'exemples en contexte, et (3) l'utilisation de prompts dynamiques peuvent aider à améliorer les performances sur ce benchmark.
English
With the evolution of Large Language Models (LLMs) we can solve increasingly more complex NLP tasks across various domains, including spreadsheets. This work investigates whether LLMs can generate code (Excel OfficeScripts, a TypeScript API for executing many tasks in Excel) that solves Excel specific tasks provided via natural language user instructions. To do so we introduce a new large-scale benchmark, InstructExcel, created by leveraging the 'Automate' feature in Excel to automatically generate OfficeScripts from users' actions. Our benchmark includes over 10k samples covering 170+ Excel operations across 2,000 publicly available Excel spreadsheets. Experiments across various zero-shot and few-shot settings show that InstructExcel is a hard benchmark for state of the art models like GPT-4. We observe that (1) using GPT-4 over GPT-3.5, (2) providing more in-context examples, and (3) dynamic prompting can help improve performance on this benchmark.
PDF22December 15, 2024