FinAudio : Un benchmark pour les modèles de langage audio de grande envergure dans les applications financières
FinAudio: A Benchmark for Audio Large Language Models in Financial Applications
March 26, 2025
Auteurs: Yupeng Cao, Haohang Li, Yangyang Yu, Shashidhar Reddy Javaji, Yueru He, Jimin Huang, Zining Zhu, Qianqian Xie, Xiao-yang Liu, Koduvayur Subbalakshmi, Meikang Qiu, Sophia Ananiadou, Jian-Yun Nie
cs.AI
Résumé
Les modèles de langage audio de grande envergure (AudioLLMs) ont suscité une attention considérable et ont considérablement amélioré les performances sur des tâches audio telles que la conversation, la compréhension audio et la reconnaissance automatique de la parole (ASR). Malgré ces avancées, il manque un benchmark pour évaluer les AudioLLMs dans des scénarios financiers, où les données audio, telles que les conférences téléphoniques sur les résultats et les discours des PDG, constituent des ressources cruciales pour l'analyse financière et les décisions d'investissement. Dans cet article, nous présentons FinAudio, le premier benchmark conçu pour évaluer les capacités des AudioLLMs dans le domaine financier. Nous définissons d'abord trois tâches basées sur les caractéristiques uniques du domaine financier : 1) ASR pour les audios financiers courts, 2) ASR pour les audios financiers longs, et 3) la synthèse des audios financiers longs. Ensuite, nous constituons respectivement deux ensembles de données audio courts et deux ensembles de données audio longs, et développons un nouvel ensemble de données pour la synthèse des audios financiers, formant ainsi le benchmark FinAudio. Nous évaluons ensuite sept AudioLLMs répandus sur FinAudio. Notre évaluation révèle les limites des AudioLLMs existants dans le domaine financier et propose des pistes pour les améliorer. Tous les ensembles de données et les codes seront rendus publics.
English
Audio Large Language Models (AudioLLMs) have received widespread attention
and have significantly improved performance on audio tasks such as
conversation, audio understanding, and automatic speech recognition (ASR).
Despite these advancements, there is an absence of a benchmark for assessing
AudioLLMs in financial scenarios, where audio data, such as earnings conference
calls and CEO speeches, are crucial resources for financial analysis and
investment decisions. In this paper, we introduce FinAudio, the first
benchmark designed to evaluate the capacity of AudioLLMs in the financial
domain. We first define three tasks based on the unique characteristics of the
financial domain: 1) ASR for short financial audio, 2) ASR for long financial
audio, and 3) summarization of long financial audio. Then, we curate two short
and two long audio datasets, respectively, and develop a novel dataset for
financial audio summarization, comprising the FinAudio benchmark.
Then, we evaluate seven prevalent AudioLLMs on FinAudio. Our
evaluation reveals the limitations of existing AudioLLMs in the financial
domain and offers insights for improving AudioLLMs. All datasets and codes will
be released.Summary
AI-Generated Summary