FinAudio: Um Benchmark para Modelos de Linguagem de Grande Escala em Aplicações Financeiras de Áudio
FinAudio: A Benchmark for Audio Large Language Models in Financial Applications
March 26, 2025
Autores: Yupeng Cao, Haohang Li, Yangyang Yu, Shashidhar Reddy Javaji, Yueru He, Jimin Huang, Zining Zhu, Qianqian Xie, Xiao-yang Liu, Koduvayur Subbalakshmi, Meikang Qiu, Sophia Ananiadou, Jian-Yun Nie
cs.AI
Resumo
Os Modelos de Linguagem de Grande Escala para Áudio (AudioLLMs) têm recebido ampla atenção e melhoraram significativamente o desempenho em tarefas de áudio, como conversação, compreensão de áudio e reconhecimento automático de fala (ASR). Apesar desses avanços, há uma ausência de um benchmark para avaliar AudioLLMs em cenários financeiros, onde dados de áudio, como chamadas de conferência de resultados e discursos de CEOs, são recursos cruciais para análise financeira e decisões de investimento. Neste artigo, apresentamos o FinAudio, o primeiro benchmark projetado para avaliar a capacidade de AudioLLMs no domínio financeiro. Primeiro, definimos três tarefas com base nas características únicas do domínio financeiro: 1) ASR para áudio financeiro curto, 2) ASR para áudio financeiro longo e 3) sumarização de áudio financeiro longo. Em seguida, curamos dois conjuntos de dados de áudio curtos e dois longos, respectivamente, e desenvolvemos um novo conjunto de dados para sumarização de áudio financeiro, compondo o benchmark FinAudio. Depois, avaliamos sete AudioLLMs prevalentes no FinAudio. Nossa avaliação revela as limitações dos AudioLLMs existentes no domínio financeiro e oferece insights para melhorar os AudioLLMs. Todos os conjuntos de dados e códigos serão disponibilizados.
English
Audio Large Language Models (AudioLLMs) have received widespread attention
and have significantly improved performance on audio tasks such as
conversation, audio understanding, and automatic speech recognition (ASR).
Despite these advancements, there is an absence of a benchmark for assessing
AudioLLMs in financial scenarios, where audio data, such as earnings conference
calls and CEO speeches, are crucial resources for financial analysis and
investment decisions. In this paper, we introduce FinAudio, the first
benchmark designed to evaluate the capacity of AudioLLMs in the financial
domain. We first define three tasks based on the unique characteristics of the
financial domain: 1) ASR for short financial audio, 2) ASR for long financial
audio, and 3) summarization of long financial audio. Then, we curate two short
and two long audio datasets, respectively, and develop a novel dataset for
financial audio summarization, comprising the FinAudio benchmark.
Then, we evaluate seven prevalent AudioLLMs on FinAudio. Our
evaluation reveals the limitations of existing AudioLLMs in the financial
domain and offers insights for improving AudioLLMs. All datasets and codes will
be released.Summary
AI-Generated Summary