Ist GPT-4 ein guter Datenanalyst?

Zusammenfassung

Da große Sprachmodelle (LLMs) ihre leistungsstarken Fähigkeiten in zahlreichen Domänen und Aufgaben, einschließlich Kontextverständnis, Codegenerierung, Sprachgenerierung, Datenstorytelling usw., unter Beweis gestellt haben, könnten viele Datenanalysten Bedenken haben, ob ihre Jobs durch KI ersetzt werden. Dieses kontroverse Thema hat in der Öffentlichkeit viel Aufmerksamkeit erregt. Dennoch befinden wir uns noch in einer Phase divergierender Meinungen ohne definitive Schlussfolgerung. Motiviert durch diese Situation stellen wir in dieser Arbeit die Forschungsfrage „Ist GPT-4 ein guter Datenanalyst?“ und zielen darauf ab, sie durch direkte Vergleichsstudien zu beantworten. Im Detail betrachten wir GPT-4 als einen Datenanalysten, der End-to-End-Datenanalysen mit Datenbanken aus einer Vielzahl von Domänen durchführt. Wir schlagen ein Framework vor, um die Probleme zu bewältigen, indem wir sorgfältig gestaltete Prompts für GPT-4 entwerfen, um Experimente durchzuführen. Zudem entwickeln wir mehrere aufgabenbezogene Bewertungsmetriken, um die Leistung mehrerer professioneller menschlicher Datenanalysten und GPT-4 systematisch zu vergleichen. Die experimentellen Ergebnisse zeigen, dass GPT-4 eine vergleichbare Leistung wie Menschen erzielen kann. Wir bieten auch vertiefte Diskussionen unserer Ergebnisse, um weitere Studien zu beleuchten, bevor wir zu dem Schluss kommen, dass GPT-4 Datenanalysten ersetzen kann.

English

As large language models (LLMs) have demonstrated their powerful capabilities in plenty of domains and tasks, including context understanding, code generation, language generation, data storytelling, etc., many data analysts may raise concerns if their jobs will be replaced by AI. This controversial topic has drawn a lot of attention in public. However, we are still at a stage of divergent opinions without any definitive conclusion. Motivated by this, we raise the research question of "is GPT-4 a good data analyst?" in this work and aim to answer it by conducting head-to-head comparative studies. In detail, we regard GPT-4 as a data analyst to perform end-to-end data analysis with databases from a wide range of domains. We propose a framework to tackle the problems by carefully designing the prompts for GPT-4 to conduct experiments. We also design several task-specific evaluation metrics to systematically compare the performance between several professional human data analysts and GPT-4. Experimental results show that GPT-4 can achieve comparable performance to humans. We also provide in-depth discussions about our results to shed light on further studies before we reach the conclusion that GPT-4 can replace data analysts.

Ist GPT-4 ein guter Datenanalyst?

Is GPT-4 a Good Data Analyst?

Zusammenfassung

Support