GPT-4는 우수한 데이터 분석가인가?
Is GPT-4 a Good Data Analyst?
May 24, 2023
저자: Liying Cheng, Xingxuan Li, Lidong Bing
cs.AI
초록
대규모 언어 모델(LLM)이 문맥 이해, 코드 생성, 언어 생성, 데이터 스토리텔링 등 다양한 분야와 작업에서 강력한 능력을 입증함에 따라, 많은 데이터 분석가들은 자신의 직업이 AI로 대체될지에 대한 우려를 제기하고 있다. 이 논쟁적인 주제는 대중의 많은 관심을 끌어왔으나, 여전히 명확한 결론 없이 다양한 의견이 공존하는 단계에 머물러 있다. 이에 동기를 받아, 본 연구에서는 "GPT-4가 훌륭한 데이터 분석가인가?"라는 연구 질문을 제기하고, 이를 해결하기 위해 직접적인 비교 연구를 수행하고자 한다. 구체적으로, GPT-4를 데이터 분석가로 간주하여 다양한 분야의 데이터베이스를 활용한 종단간 데이터 분석을 수행한다. 이를 위해 GPT-4가 실험을 수행할 수 있도록 프롬프트를 신중하게 설계한 프레임워크를 제안한다. 또한, 여러 전문 인간 데이터 분석가와 GPT-4의 성능을 체계적으로 비교하기 위해 여러 작업별 평가 지표를 설계한다. 실험 결과, GPT-4는 인간과 비슷한 수준의 성능을 달성할 수 있음을 보여준다. 또한, GPT-4가 데이터 분석가를 대체할 수 있다는 결론에 도달하기 전에, 본 연구의 결과에 대한 심층적인 논의를 제공하여 향후 연구에 대한 통찰을 제시한다.
English
As large language models (LLMs) have demonstrated their powerful capabilities
in plenty of domains and tasks, including context understanding, code
generation, language generation, data storytelling, etc., many data analysts
may raise concerns if their jobs will be replaced by AI. This controversial
topic has drawn a lot of attention in public. However, we are still at a stage
of divergent opinions without any definitive conclusion. Motivated by this, we
raise the research question of "is GPT-4 a good data analyst?" in this work and
aim to answer it by conducting head-to-head comparative studies. In detail, we
regard GPT-4 as a data analyst to perform end-to-end data analysis with
databases from a wide range of domains. We propose a framework to tackle the
problems by carefully designing the prompts for GPT-4 to conduct experiments.
We also design several task-specific evaluation metrics to systematically
compare the performance between several professional human data analysts and
GPT-4. Experimental results show that GPT-4 can achieve comparable performance
to humans. We also provide in-depth discussions about our results to shed light
on further studies before we reach the conclusion that GPT-4 can replace data
analysts.