O ChatGPT e o GPT-4 são Solucionadores de Propósito Geral para Análise de Textos Financeiros? Uma Análise em Diversas Tarefas Típicas

Resumo

Os modelos de linguagem mais recentes, como o ChatGPT e o GPT-4, têm atraído atenção significativa por serem capazes de gerar respostas de alta qualidade para entradas humanas. Apesar dos extensos testes realizados com o ChatGPT e o GPT-4 em corpora de texto genéricos, que demonstram suas impressionantes capacidades, ainda não foi realizado um estudo focado em corpora financeiros. Neste estudo, buscamos preencher essa lacuna ao examinar o potencial do ChatGPT e do GPT-4 como solucionadores de problemas típicos de análise de texto financeiro em cenários de zero-shot ou few-shot. Especificamente, avaliamos suas capacidades em quatro tarefas representativas utilizando cinco conjuntos de dados textuais financeiros distintos. O estudo preliminar mostra que o ChatGPT e o GPT-4 enfrentam dificuldades em tarefas como reconhecimento de entidades nomeadas (NER) financeiras e análise de sentimentos, onde é necessário conhecimento específico do domínio, enquanto se destacam em tarefas de raciocínio numérico. Relatamos tanto os pontos fortes quanto as limitações das versões atuais do ChatGPT e do GPT-4, comparando-os com modelos ajustados (finetuned) de última geração, bem como com modelos generativos pré-treinados específicos do domínio. Nossos experimentos fornecem estudos qualitativos, por meio dos quais esperamos contribuir para a compreensão das capacidades dos modelos existentes e facilitar melhorias futuras.

English

The most recent large language models such as ChatGPT and GPT-4 have garnered significant attention, as they are capable of generating high-quality responses to human input. Despite the extensive testing of ChatGPT and GPT-4 on generic text corpora, showcasing their impressive capabilities, a study focusing on financial corpora has not been conducted. In this study, we aim to bridge this gap by examining the potential of ChatGPT and GPT-4 as a solver for typical financial text analytic problems in the zero-shot or few-shot setting. Specifically, we assess their capabilities on four representative tasks over five distinct financial textual datasets. The preliminary study shows that ChatGPT and GPT-4 struggle on tasks such as financial named entity recognition (NER) and sentiment analysis, where domain-specific knowledge is required, while they excel in numerical reasoning tasks. We report both the strengths and limitations of the current versions of ChatGPT and GPT-4, comparing them to the state-of-the-art finetuned models as well as pretrained domain-specific generative models. Our experiments provide qualitative studies, through which we hope to help understand the capability of the existing models and facilitate further improvements.

O ChatGPT e o GPT-4 são Solucionadores de Propósito Geral para Análise de Textos Financeiros? Uma Análise em Diversas Tarefas Típicas

Are ChatGPT and GPT-4 General-Purpose Solvers for Financial Text Analytics? An Examination on Several Typical Tasks

Resumo

Support