InstructExcel: Un punto de referencia para instrucciones en lenguaje natural en Excel

Resumen

Con la evolución de los Modelos de Lenguaje a Gran Escala (LLMs), podemos resolver tareas de Procesamiento de Lenguaje Natural (NLP) cada vez más complejas en diversos dominios, incluyendo hojas de cálculo. Este trabajo investiga si los LLMs pueden generar código (Excel OfficeScripts, una API de TypeScript para ejecutar múltiples tareas en Excel) que resuelva tareas específicas de Excel proporcionadas mediante instrucciones en lenguaje natural. Para ello, presentamos un nuevo benchmark a gran escala, InstructExcel, creado aprovechando la función 'Automatizar' de Excel para generar automáticamente OfficeScripts a partir de las acciones de los usuarios. Nuestro benchmark incluye más de 10k muestras que abarcan más de 170 operaciones de Excel en 2,000 hojas de cálculo disponibles públicamente. Los experimentos en diversos escenarios de zero-shot y few-shot muestran que InstructExcel es un benchmark desafiante para modelos de última generación como GPT-4. Observamos que (1) utilizar GPT-4 en lugar de GPT-3.5, (2) proporcionar más ejemplos en contexto, y (3) el uso de indicaciones dinámicas pueden ayudar a mejorar el rendimiento en este benchmark.

English

With the evolution of Large Language Models (LLMs) we can solve increasingly more complex NLP tasks across various domains, including spreadsheets. This work investigates whether LLMs can generate code (Excel OfficeScripts, a TypeScript API for executing many tasks in Excel) that solves Excel specific tasks provided via natural language user instructions. To do so we introduce a new large-scale benchmark, InstructExcel, created by leveraging the 'Automate' feature in Excel to automatically generate OfficeScripts from users' actions. Our benchmark includes over 10k samples covering 170+ Excel operations across 2,000 publicly available Excel spreadsheets. Experiments across various zero-shot and few-shot settings show that InstructExcel is a hard benchmark for state of the art models like GPT-4. We observe that (1) using GPT-4 over GPT-3.5, (2) providing more in-context examples, and (3) dynamic prompting can help improve performance on this benchmark.

InstructExcel: Un punto de referencia para instrucciones en lenguaje natural en Excel

InstructExcel: A Benchmark for Natural Language Instruction in Excel

Resumen

Support