ChatPaper.aiChatPaper

FinAudio: 금융 애플리케이션을 위한 오디오 대형 언어 모델 벤치마크

FinAudio: A Benchmark for Audio Large Language Models in Financial Applications

March 26, 2025
저자: Yupeng Cao, Haohang Li, Yangyang Yu, Shashidhar Reddy Javaji, Yueru He, Jimin Huang, Zining Zhu, Qianqian Xie, Xiao-yang Liu, Koduvayur Subbalakshmi, Meikang Qiu, Sophia Ananiadou, Jian-Yun Nie
cs.AI

초록

오디오 대형 언어 모델(AudioLLMs)은 대화, 오디오 이해, 자동 음성 인식(ASR)과 같은 오디오 작업에서 성능을 크게 향상시키며 폭넓은 관심을 받고 있습니다. 이러한 발전에도 불구하고, 수익 컨퍼런스 콜과 CEO 연설과 같은 오디오 데이터가 금융 분석 및 투자 결정에 중요한 자원인 금융 시나리오에서 AudioLLMs를 평가하기 위한 벤치마크가 부재한 상황입니다. 본 논문에서는 금융 도메인에서 AudioLLMs의 능력을 평가하기 위해 설계된 최초의 벤치마크인 FinAudio를 소개합니다. 먼저, 금융 도메인의 고유한 특성을 기반으로 세 가지 작업을 정의합니다: 1) 짧은 금융 오디오에 대한 ASR, 2) 긴 금융 오디오에 대한 ASR, 3) 긴 금융 오디오의 요약. 그런 다음, 각각 두 개의 짧은 오디오 데이터셋과 두 개의 긴 오디오 데이터셋을 구성하고, FinAudio 벤치마크를 구성하는 금융 오디오 요약을 위한 새로운 데이터셋을 개발합니다. 이후, FinAudio에서 널리 사용되는 7개의 AudioLLMs를 평가합니다. 우리의 평가는 금융 도메인에서 기존 AudioLLMs의 한계를 드러내고, AudioLLMs를 개선하기 위한 통찰을 제공합니다. 모든 데이터셋과 코드는 공개될 예정입니다.
English
Audio Large Language Models (AudioLLMs) have received widespread attention and have significantly improved performance on audio tasks such as conversation, audio understanding, and automatic speech recognition (ASR). Despite these advancements, there is an absence of a benchmark for assessing AudioLLMs in financial scenarios, where audio data, such as earnings conference calls and CEO speeches, are crucial resources for financial analysis and investment decisions. In this paper, we introduce FinAudio, the first benchmark designed to evaluate the capacity of AudioLLMs in the financial domain. We first define three tasks based on the unique characteristics of the financial domain: 1) ASR for short financial audio, 2) ASR for long financial audio, and 3) summarization of long financial audio. Then, we curate two short and two long audio datasets, respectively, and develop a novel dataset for financial audio summarization, comprising the FinAudio benchmark. Then, we evaluate seven prevalent AudioLLMs on FinAudio. Our evaluation reveals the limitations of existing AudioLLMs in the financial domain and offers insights for improving AudioLLMs. All datasets and codes will be released.

Summary

AI-Generated Summary

PDF192March 28, 2025