ChatGPT et GPT-4 sont-ils des solveurs universels pour l'analyse de textes financiers ? Un examen sur plusieurs tâches typiques
Are ChatGPT and GPT-4 General-Purpose Solvers for Financial Text Analytics? An Examination on Several Typical Tasks
May 10, 2023
Auteurs: Xianzhi Li, Xiaodan Zhu, Zhiqiang Ma, Xiaomo Liu, Sameena Shah
cs.AI
Résumé
Les modèles de langage les plus récents, tels que ChatGPT et GPT-4, ont suscité une attention considérable en raison de leur capacité à générer des réponses de haute qualité à des entrées humaines. Bien que ChatGPT et GPT-4 aient été largement testés sur des corpus textuels génériques, démontrant ainsi leurs impressionnantes capacités, aucune étude ne s'est encore concentrée sur des corpus financiers. Dans cette étude, nous cherchons à combler cette lacune en examinant le potentiel de ChatGPT et GPT-4 en tant que solveurs pour des problèmes typiques d'analyse de texte financier dans un contexte zero-shot ou few-shot. Plus précisément, nous évaluons leurs capacités sur quatre tâches représentatives à travers cinq ensembles de données textuelles financières distincts. L'étude préliminaire révèle que ChatGPT et GPT-4 rencontrent des difficultés dans des tâches telles que la reconnaissance d'entités nommées (NER) financières et l'analyse de sentiment, où des connaissances spécifiques au domaine sont nécessaires, tout en excellant dans les tâches de raisonnement numérique. Nous rapportons à la fois les forces et les limites des versions actuelles de ChatGPT et GPT-4, en les comparant aux modèles affinés de pointe ainsi qu'aux modèles génératifs spécifiques au domaine pré-entraînés. Nos expériences fournissent des études qualitatives, à travers lesquelles nous espérons contribuer à une meilleure compréhension des capacités des modèles existants et faciliter des améliorations futures.
English
The most recent large language models such as ChatGPT and GPT-4 have garnered
significant attention, as they are capable of generating high-quality responses
to human input. Despite the extensive testing of ChatGPT and GPT-4 on generic
text corpora, showcasing their impressive capabilities, a study focusing on
financial corpora has not been conducted. In this study, we aim to bridge this
gap by examining the potential of ChatGPT and GPT-4 as a solver for typical
financial text analytic problems in the zero-shot or few-shot setting.
Specifically, we assess their capabilities on four representative tasks over
five distinct financial textual datasets. The preliminary study shows that
ChatGPT and GPT-4 struggle on tasks such as financial named entity recognition
(NER) and sentiment analysis, where domain-specific knowledge is required,
while they excel in numerical reasoning tasks. We report both the strengths and
limitations of the current versions of ChatGPT and GPT-4, comparing them to the
state-of-the-art finetuned models as well as pretrained domain-specific
generative models. Our experiments provide qualitative studies, through which
we hope to help understand the capability of the existing models and facilitate
further improvements.