Являются ли ChatGPT и GPT-4 универсальными инструментами для анализа финансовых текстов? Исследование на примере нескольких типичных задач
Are ChatGPT and GPT-4 General-Purpose Solvers for Financial Text Analytics? An Examination on Several Typical Tasks
May 10, 2023
Авторы: Xianzhi Li, Xiaodan Zhu, Zhiqiang Ma, Xiaomo Liu, Sameena Shah
cs.AI
Аннотация
Последние крупные языковые модели, такие как ChatGPT и GPT-4, привлекли значительное внимание благодаря своей способности генерировать высококачественные ответы на запросы пользователей. Несмотря на обширное тестирование ChatGPT и GPT-4 на общих текстовых корпусах, демонстрирующее их впечатляющие возможности, исследования, сосредоточенные на финансовых корпусах, до сих пор не проводились. В данной работе мы стремимся восполнить этот пробел, изучив потенциал ChatGPT и GPT-4 в качестве решателя типичных задач анализа финансовых текстов в условиях zero-shot или few-shot обучения. В частности, мы оцениваем их возможности на четырех репрезентативных задачах, используя пять различных наборов финансовых текстовых данных. Предварительное исследование показывает, что ChatGPT и GPT-4 испытывают трудности в задачах, таких как распознавание именованных сущностей (NER) в финансовой области и анализ тональности, где требуется специализированное знание предметной области, в то время как они демонстрируют высокие результаты в задачах численного рассуждения. Мы описываем как сильные стороны, так и ограничения текущих версий ChatGPT и GPT-4, сравнивая их с современными тонко настроенными моделями, а также с предобученными генеративными моделями, специализированными для конкретной области. Наши эксперименты включают качественные исследования, которые, как мы надеемся, помогут лучше понять возможности существующих моделей и способствовать их дальнейшему улучшению.
English
The most recent large language models such as ChatGPT and GPT-4 have garnered
significant attention, as they are capable of generating high-quality responses
to human input. Despite the extensive testing of ChatGPT and GPT-4 on generic
text corpora, showcasing their impressive capabilities, a study focusing on
financial corpora has not been conducted. In this study, we aim to bridge this
gap by examining the potential of ChatGPT and GPT-4 as a solver for typical
financial text analytic problems in the zero-shot or few-shot setting.
Specifically, we assess their capabilities on four representative tasks over
five distinct financial textual datasets. The preliminary study shows that
ChatGPT and GPT-4 struggle on tasks such as financial named entity recognition
(NER) and sentiment analysis, where domain-specific knowledge is required,
while they excel in numerical reasoning tasks. We report both the strengths and
limitations of the current versions of ChatGPT and GPT-4, comparing them to the
state-of-the-art finetuned models as well as pretrained domain-specific
generative models. Our experiments provide qualitative studies, through which
we hope to help understand the capability of the existing models and facilitate
further improvements.