GPT-4 est-il un bon analyste de données ?
Is GPT-4 a Good Data Analyst?
May 24, 2023
Auteurs: Liying Cheng, Xingxuan Li, Lidong Bing
cs.AI
Résumé
Les grands modèles de langage (LLMs) ayant démontré leurs puissantes capacités dans de nombreux domaines et tâches, notamment la compréhension contextuelle, la génération de code, la génération de langage, la narration de données, etc., de nombreux analystes de données peuvent s’interroger sur le risque que leurs emplois soient remplacés par l’IA. Ce sujet controversé a suscité une attention considérable dans le débat public. Cependant, nous en sommes encore à un stade où les opinions divergent sans qu’aucune conclusion définitive ne soit établie. Motivés par cette question, nous posons dans ce travail la question de recherche suivante : « GPT-4 est-il un bon analyste de données ? » et visons à y répondre en menant des études comparatives directes. Plus précisément, nous considérons GPT-4 comme un analyste de données chargé de réaliser des analyses de données de bout en bout sur des bases de données issues de divers domaines. Nous proposons un cadre pour aborder ces problèmes en concevant soigneusement les prompts destinés à GPT-4 pour mener les expériences. Nous concevons également plusieurs métriques d’évaluation spécifiques aux tâches afin de comparer systématiquement les performances entre plusieurs analystes de données humains professionnels et GPT-4. Les résultats expérimentaux montrent que GPT-4 peut atteindre des performances comparables à celles des humains. Nous fournissons également des discussions approfondies sur nos résultats pour éclairer les études futures avant de conclure que GPT-4 peut remplacer les analystes de données.
English
As large language models (LLMs) have demonstrated their powerful capabilities
in plenty of domains and tasks, including context understanding, code
generation, language generation, data storytelling, etc., many data analysts
may raise concerns if their jobs will be replaced by AI. This controversial
topic has drawn a lot of attention in public. However, we are still at a stage
of divergent opinions without any definitive conclusion. Motivated by this, we
raise the research question of "is GPT-4 a good data analyst?" in this work and
aim to answer it by conducting head-to-head comparative studies. In detail, we
regard GPT-4 as a data analyst to perform end-to-end data analysis with
databases from a wide range of domains. We propose a framework to tackle the
problems by carefully designing the prompts for GPT-4 to conduct experiments.
We also design several task-specific evaluation metrics to systematically
compare the performance between several professional human data analysts and
GPT-4. Experimental results show that GPT-4 can achieve comparable performance
to humans. We also provide in-depth discussions about our results to shed light
on further studies before we reach the conclusion that GPT-4 can replace data
analysts.