FinAudio: Een Benchmark voor Audio Large Language Modellen in Financiële Toepassingen
FinAudio: A Benchmark for Audio Large Language Models in Financial Applications
March 26, 2025
Auteurs: Yupeng Cao, Haohang Li, Yangyang Yu, Shashidhar Reddy Javaji, Yueru He, Jimin Huang, Zining Zhu, Qianqian Xie, Xiao-yang Liu, Koduvayur Subbalakshmi, Meikang Qiu, Sophia Ananiadou, Jian-Yun Nie
cs.AI
Samenvatting
Audio Large Language Models (AudioLLMs) hebben brede aandacht gekregen en hebben de prestaties aanzienlijk verbeterd op audiotaken zoals conversatie, audio-begrip en automatische spraakherkenning (ASR). Ondanks deze vooruitgang ontbreekt het aan een benchmark voor het beoordelen van AudioLLMs in financiële scenario's, waar audiodata, zoals winstpresentaties en CEO-toespraken, cruciale bronnen zijn voor financiële analyse en investeringsbeslissingen. In dit artikel introduceren we FinAudio, de eerste benchmark die is ontworpen om de capaciteit van AudioLLMs in het financiële domein te evalueren. We definiëren eerst drie taken op basis van de unieke kenmerken van het financiële domein: 1) ASR voor korte financiële audio, 2) ASR voor lange financiële audio, en 3) samenvatting van lange financiële audio. Vervolgens stellen we respectievelijk twee korte en twee lange audio-datasets samen en ontwikkelen we een nieuwe dataset voor financiële audio-samenvatting, die de FinAudio-benchmark vormt. Daarna evalueren we zeven veelgebruikte AudioLLMs op FinAudio. Onze evaluatie onthult de beperkingen van bestaande AudioLLMs in het financiële domein en biedt inzichten voor het verbeteren van AudioLLMs. Alle datasets en codes zullen worden vrijgegeven.
English
Audio Large Language Models (AudioLLMs) have received widespread attention
and have significantly improved performance on audio tasks such as
conversation, audio understanding, and automatic speech recognition (ASR).
Despite these advancements, there is an absence of a benchmark for assessing
AudioLLMs in financial scenarios, where audio data, such as earnings conference
calls and CEO speeches, are crucial resources for financial analysis and
investment decisions. In this paper, we introduce FinAudio, the first
benchmark designed to evaluate the capacity of AudioLLMs in the financial
domain. We first define three tasks based on the unique characteristics of the
financial domain: 1) ASR for short financial audio, 2) ASR for long financial
audio, and 3) summarization of long financial audio. Then, we curate two short
and two long audio datasets, respectively, and develop a novel dataset for
financial audio summarization, comprising the FinAudio benchmark.
Then, we evaluate seven prevalent AudioLLMs on FinAudio. Our
evaluation reveals the limitations of existing AudioLLMs in the financial
domain and offers insights for improving AudioLLMs. All datasets and codes will
be released.Summary
AI-Generated Summary