SAKURA : Sur le raisonnement multi-sauts des grands modèles audio-langage basés sur les informations vocales et sonores
SAKURA: On the Multi-hop Reasoning of Large Audio-Language Models Based on Speech and Audio Information
May 19, 2025
Auteurs: Chih-Kai Yang, Neo Ho, Yen-Ting Piao, Hung-yi Lee
cs.AI
Résumé
Les grands modèles audio-langage (LALMs) étendent les grands modèles de langage avec une compréhension multimodale de la parole, de l'audio, etc. Bien que leurs performances sur les tâches de traitement de la parole et de l'audio soient largement étudiées, leurs capacités de raisonnement restent peu explorées. En particulier, leur raisonnement multi-étapes, c'est-à-dire la capacité à rappeler et intégrer plusieurs faits, manque d'évaluation systématique. Les benchmarks existants se concentrent sur les tâches générales de traitement de la parole et de l'audio, les capacités conversationnelles et l'équité, mais négligent cet aspect. Pour combler cette lacune, nous introduisons SAKURA, un benchmark évaluant le raisonnement multi-étapes des LALMs basé sur des informations issues de la parole et de l'audio. Les résultats montrent que les LALMs peinent à intégrer les représentations de la parole et de l'audio pour un raisonnement multi-étapes, même lorsqu'ils extraient correctement les informations pertinentes, mettant en lumière un défi fondamental dans le raisonnement multimodal. Nos résultats révèlent une limitation critique des LALMs, offrant des perspectives et des ressources pour les recherches futures.
English
Large audio-language models (LALMs) extend the large language models with
multimodal understanding in speech, audio, etc. While their performances on
speech and audio-processing tasks are extensively studied, their reasoning
abilities remain underexplored. Particularly, their multi-hop reasoning, the
ability to recall and integrate multiple facts, lacks systematic evaluation.
Existing benchmarks focus on general speech and audio-processing tasks,
conversational abilities, and fairness but overlook this aspect. To bridge this
gap, we introduce SAKURA, a benchmark assessing LALMs' multi-hop reasoning
based on speech and audio information. Results show that LALMs struggle to
integrate speech/audio representations for multi-hop reasoning, even when they
extract the relevant information correctly, highlighting a fundamental
challenge in multimodal reasoning. Our findings expose a critical limitation in
LALMs, offering insights and resources for future research.Summary
AI-Generated Summary