FinAudio: Un punto de referencia para modelos de lenguaje grande de audio en aplicaciones financieras
FinAudio: A Benchmark for Audio Large Language Models in Financial Applications
March 26, 2025
Autores: Yupeng Cao, Haohang Li, Yangyang Yu, Shashidhar Reddy Javaji, Yueru He, Jimin Huang, Zining Zhu, Qianqian Xie, Xiao-yang Liu, Koduvayur Subbalakshmi, Meikang Qiu, Sophia Ananiadou, Jian-Yun Nie
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala para Audio (AudioLLMs) han recibido una atención generalizada y han mejorado significativamente el rendimiento en tareas de audio como conversación, comprensión de audio y reconocimiento automático de voz (ASR). A pesar de estos avances, existe una ausencia de un punto de referencia para evaluar AudioLLMs en escenarios financieros, donde los datos de audio, como las llamadas de conferencias de resultados y los discursos de CEOs, son recursos cruciales para el análisis financiero y las decisiones de inversión. En este artículo, presentamos FinAudio, el primer punto de referencia diseñado para evaluar la capacidad de los AudioLLMs en el dominio financiero. Primero definimos tres tareas basadas en las características únicas del dominio financiero: 1) ASR para audio financiero corto, 2) ASR para audio financiero largo, y 3) resumen de audio financiero largo. Luego, recopilamos dos conjuntos de datos de audio corto y dos de audio largo, respectivamente, y desarrollamos un nuevo conjunto de datos para el resumen de audio financiero, que conforman el punto de referencia FinAudio. Posteriormente, evaluamos siete AudioLLMs prevalentes en FinAudio. Nuestra evaluación revela las limitaciones de los AudioLLMs existentes en el dominio financiero y ofrece ideas para mejorar los AudioLLMs. Todos los conjuntos de datos y códigos serán publicados.
English
Audio Large Language Models (AudioLLMs) have received widespread attention
and have significantly improved performance on audio tasks such as
conversation, audio understanding, and automatic speech recognition (ASR).
Despite these advancements, there is an absence of a benchmark for assessing
AudioLLMs in financial scenarios, where audio data, such as earnings conference
calls and CEO speeches, are crucial resources for financial analysis and
investment decisions. In this paper, we introduce FinAudio, the first
benchmark designed to evaluate the capacity of AudioLLMs in the financial
domain. We first define three tasks based on the unique characteristics of the
financial domain: 1) ASR for short financial audio, 2) ASR for long financial
audio, and 3) summarization of long financial audio. Then, we curate two short
and two long audio datasets, respectively, and develop a novel dataset for
financial audio summarization, comprising the FinAudio benchmark.
Then, we evaluate seven prevalent AudioLLMs on FinAudio. Our
evaluation reveals the limitations of existing AudioLLMs in the financial
domain and offers insights for improving AudioLLMs. All datasets and codes will
be released.Summary
AI-Generated Summary