¿Son ChatGPT y GPT-4 solucionadores de propósito general para el análisis de textos financieros? Un examen en varias tareas típicas
Are ChatGPT and GPT-4 General-Purpose Solvers for Financial Text Analytics? An Examination on Several Typical Tasks
May 10, 2023
Autores: Xianzhi Li, Xiaodan Zhu, Zhiqiang Ma, Xiaomo Liu, Sameena Shah
cs.AI
Resumen
Los modelos de lenguaje más recientes, como ChatGPT y GPT-4, han captado una atención significativa debido a su capacidad para generar respuestas de alta calidad a entradas humanas. A pesar de las extensas pruebas realizadas con ChatGPT y GPT-4 en corpus de texto genéricos, que demuestran sus impresionantes capacidades, aún no se ha realizado un estudio centrado en corpus financieros. En este estudio, buscamos cerrar esta brecha examinando el potencial de ChatGPT y GPT-4 como solucionadores de problemas típicos de análisis de texto financiero en entornos de zero-shot o few-shot. Específicamente, evaluamos sus capacidades en cuatro tareas representativas utilizando cinco conjuntos de datos textuales financieros distintos. El estudio preliminar muestra que ChatGPT y GPT-4 tienen dificultades en tareas como el reconocimiento de entidades nombradas (NER) financieras y el análisis de sentimientos, donde se requiere conocimiento específico del dominio, mientras que sobresalen en tareas de razonamiento numérico. Reportamos tanto las fortalezas como las limitaciones de las versiones actuales de ChatGPT y GPT-4, comparándolas con modelos ajustados (finetuned) de última generación, así como con modelos generativos preentrenados específicos del dominio. Nuestros experimentos incluyen estudios cualitativos, a través de los cuales esperamos contribuir a comprender las capacidades de los modelos existentes y facilitar mejoras futuras.
English
The most recent large language models such as ChatGPT and GPT-4 have garnered
significant attention, as they are capable of generating high-quality responses
to human input. Despite the extensive testing of ChatGPT and GPT-4 on generic
text corpora, showcasing their impressive capabilities, a study focusing on
financial corpora has not been conducted. In this study, we aim to bridge this
gap by examining the potential of ChatGPT and GPT-4 as a solver for typical
financial text analytic problems in the zero-shot or few-shot setting.
Specifically, we assess their capabilities on four representative tasks over
five distinct financial textual datasets. The preliminary study shows that
ChatGPT and GPT-4 struggle on tasks such as financial named entity recognition
(NER) and sentiment analysis, where domain-specific knowledge is required,
while they excel in numerical reasoning tasks. We report both the strengths and
limitations of the current versions of ChatGPT and GPT-4, comparing them to the
state-of-the-art finetuned models as well as pretrained domain-specific
generative models. Our experiments provide qualitative studies, through which
we hope to help understand the capability of the existing models and facilitate
further improvements.