¿Es GPT-4 un buen analista de datos?

Resumen

A medida que los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado sus potentes capacidades en numerosos dominios y tareas, incluyendo la comprensión de contexto, la generación de código, la generación de lenguaje, la narración de datos, entre otros, muchos analistas de datos pueden plantear preocupaciones sobre si sus trabajos serán reemplazados por la inteligencia artificial (IA). Este tema controvertido ha captado mucha atención pública. Sin embargo, aún nos encontramos en una etapa de opiniones divergentes sin una conclusión definitiva. Motivados por esto, planteamos la pregunta de investigación "¿es GPT-4 un buen analista de datos?" en este trabajo y buscamos responderla mediante la realización de estudios comparativos directos. En detalle, consideramos a GPT-4 como un analista de datos para realizar análisis de datos de extremo a extremo con bases de datos de una amplia gama de dominios. Proponemos un marco para abordar los problemas mediante el diseño cuidadoso de indicaciones (prompts) para GPT-4 con el fin de llevar a cabo experimentos. También diseñamos varias métricas de evaluación específicas para tareas con el objetivo de comparar sistemáticamente el rendimiento entre varios analistas de datos humanos profesionales y GPT-4. Los resultados experimentales muestran que GPT-4 puede alcanzar un rendimiento comparable al de los humanos. Además, ofrecemos discusiones detalladas sobre nuestros resultados para arrojar luz sobre futuros estudios antes de llegar a la conclusión de que GPT-4 puede reemplazar a los analistas de datos.

English

As large language models (LLMs) have demonstrated their powerful capabilities in plenty of domains and tasks, including context understanding, code generation, language generation, data storytelling, etc., many data analysts may raise concerns if their jobs will be replaced by AI. This controversial topic has drawn a lot of attention in public. However, we are still at a stage of divergent opinions without any definitive conclusion. Motivated by this, we raise the research question of "is GPT-4 a good data analyst?" in this work and aim to answer it by conducting head-to-head comparative studies. In detail, we regard GPT-4 as a data analyst to perform end-to-end data analysis with databases from a wide range of domains. We propose a framework to tackle the problems by carefully designing the prompts for GPT-4 to conduct experiments. We also design several task-specific evaluation metrics to systematically compare the performance between several professional human data analysts and GPT-4. Experimental results show that GPT-4 can achieve comparable performance to humans. We also provide in-depth discussions about our results to shed light on further studies before we reach the conclusion that GPT-4 can replace data analysts.

¿Es GPT-4 un buen analista de datos?

Is GPT-4 a Good Data Analyst?

Resumen

Support