GPT-4 è un buon analista di dati?

Abstract

Poiché i grandi modelli linguistici (LLMs) hanno dimostrato le loro potenti capacità in numerosi domini e compiti, tra cui la comprensione del contesto, la generazione di codice, la generazione di linguaggio, la narrazione di dati, ecc., molti analisti di dati potrebbero sollevare preoccupazioni riguardo alla possibilità che i loro lavori vengano sostituiti dall'IA. Questo tema controverso ha attirato molta attenzione pubblica. Tuttavia, ci troviamo ancora in una fase di opinioni divergenti senza alcuna conclusione definitiva. Motivati da ciò, in questo lavoro solleviamo la questione di ricerca "GPT-4 è un buon analista di dati?" e miriamo a rispondere conducendo studi comparativi diretti. Nel dettaglio, consideriamo GPT-4 come un analista di dati per eseguire analisi end-to-end con database provenienti da un'ampia gamma di domini. Proponiamo un framework per affrontare i problemi progettando attentamente i prompt per GPT-4 per condurre esperimenti. Progettiamo anche diverse metriche di valutazione specifiche per i compiti per confrontare sistematicamente le prestazioni tra diversi analisti di dati umani professionisti e GPT-4. I risultati sperimentali mostrano che GPT-4 può raggiungere prestazioni comparabili a quelle degli esseri umani. Forniamo anche discussioni approfondite sui nostri risultati per gettare luce su ulteriori studi prima di giungere alla conclusione che GPT-4 possa sostituire gli analisti di dati.

English

As large language models (LLMs) have demonstrated their powerful capabilities in plenty of domains and tasks, including context understanding, code generation, language generation, data storytelling, etc., many data analysts may raise concerns if their jobs will be replaced by AI. This controversial topic has drawn a lot of attention in public. However, we are still at a stage of divergent opinions without any definitive conclusion. Motivated by this, we raise the research question of "is GPT-4 a good data analyst?" in this work and aim to answer it by conducting head-to-head comparative studies. In detail, we regard GPT-4 as a data analyst to perform end-to-end data analysis with databases from a wide range of domains. We propose a framework to tackle the problems by carefully designing the prompts for GPT-4 to conduct experiments. We also design several task-specific evaluation metrics to systematically compare the performance between several professional human data analysts and GPT-4. Experimental results show that GPT-4 can achieve comparable performance to humans. We also provide in-depth discussions about our results to shed light on further studies before we reach the conclusion that GPT-4 can replace data analysts.

GPT-4 è un buon analista di dati?

Is GPT-4 a Good Data Analyst?

Abstract

Support