SAKURA: Sobre el razonamiento multi-salto de los grandes modelos de audio-lenguaje basados en información de habla y audio
SAKURA: On the Multi-hop Reasoning of Large Audio-Language Models Based on Speech and Audio Information
May 19, 2025
Autores: Chih-Kai Yang, Neo Ho, Yen-Ting Piao, Hung-yi Lee
cs.AI
Resumen
Los modelos de audio-lenguaje de gran escala (LALMs, por sus siglas en inglés) amplían los modelos de lenguaje de gran escala con capacidades de comprensión multimodal en habla, audio, etc. Si bien su rendimiento en tareas de procesamiento de habla y audio ha sido ampliamente estudiado, sus habilidades de razonamiento siguen siendo poco exploradas. En particular, su razonamiento de múltiples saltos, la capacidad de recordar e integrar múltiples hechos, carece de una evaluación sistemática. Los puntos de referencia existentes se centran en tareas generales de procesamiento de habla y audio, habilidades conversacionales y equidad, pero pasan por alto este aspecto. Para cerrar esta brecha, presentamos SAKURA, un punto de referencia que evalúa el razonamiento de múltiples saltos de los LALMs basado en información de habla y audio. Los resultados muestran que los LALMs tienen dificultades para integrar representaciones de habla/audio para el razonamiento de múltiples saltos, incluso cuando extraen la información relevante correctamente, lo que resalta un desafío fundamental en el razonamiento multimodal. Nuestros hallazgos exponen una limitación crítica en los LALMs, ofreciendo perspectivas y recursos para futuras investigaciones.
English
Large audio-language models (LALMs) extend the large language models with
multimodal understanding in speech, audio, etc. While their performances on
speech and audio-processing tasks are extensively studied, their reasoning
abilities remain underexplored. Particularly, their multi-hop reasoning, the
ability to recall and integrate multiple facts, lacks systematic evaluation.
Existing benchmarks focus on general speech and audio-processing tasks,
conversational abilities, and fairness but overlook this aspect. To bridge this
gap, we introduce SAKURA, a benchmark assessing LALMs' multi-hop reasoning
based on speech and audio information. Results show that LALMs struggle to
integrate speech/audio representations for multi-hop reasoning, even when they
extract the relevant information correctly, highlighting a fundamental
challenge in multimodal reasoning. Our findings expose a critical limitation in
LALMs, offering insights and resources for future research.Summary
AI-Generated Summary