SAKURA: Sul Ragionamento Multi-hop dei Modelli Audio-Linguistici di Grande Scala Basati su Informazioni Vocali e Audio
SAKURA: On the Multi-hop Reasoning of Large Audio-Language Models Based on Speech and Audio Information
May 19, 2025
Autori: Chih-Kai Yang, Neo Ho, Yen-Ting Piao, Hung-yi Lee
cs.AI
Abstract
I grandi modelli audio-linguistici (LALMs) estendono i grandi modelli linguistici con una comprensione multimodale nel parlato, nell'audio, ecc. Sebbene le loro prestazioni nelle attività di elaborazione del parlato e dell'audio siano ampiamente studiate, le loro capacità di ragionamento rimangono poco esplorate. In particolare, il loro ragionamento multi-hop, ovvero la capacità di richiamare e integrare più fatti, manca di una valutazione sistematica. I benchmark esistenti si concentrano su compiti generali di elaborazione del parlato e dell'audio, sulle abilità conversazionali e sull'equità, ma trascurano questo aspetto. Per colmare questa lacuna, introduciamo SAKURA, un benchmark che valuta il ragionamento multi-hop dei LALMs basato su informazioni vocali e audio. I risultati mostrano che i LALMs faticano a integrare le rappresentazioni del parlato/audio per il ragionamento multi-hop, anche quando estraggono correttamente le informazioni rilevanti, evidenziando una sfida fondamentale nel ragionamento multimodale. Le nostre scoperte rivelano una limitazione critica nei LALMs, offrendo spunti e risorse per future ricerche.
English
Large audio-language models (LALMs) extend the large language models with
multimodal understanding in speech, audio, etc. While their performances on
speech and audio-processing tasks are extensively studied, their reasoning
abilities remain underexplored. Particularly, their multi-hop reasoning, the
ability to recall and integrate multiple facts, lacks systematic evaluation.
Existing benchmarks focus on general speech and audio-processing tasks,
conversational abilities, and fairness but overlook this aspect. To bridge this
gap, we introduce SAKURA, a benchmark assessing LALMs' multi-hop reasoning
based on speech and audio information. Results show that LALMs struggle to
integrate speech/audio representations for multi-hop reasoning, even when they
extract the relevant information correctly, highlighting a fundamental
challenge in multimodal reasoning. Our findings expose a critical limitation in
LALMs, offering insights and resources for future research.