ChatPaper.aiChatPaper

SAKURA: Over Multi-hop Redeneren van Grote Audio-Taalmodellen Gebaseerd op Spraak- en Audio-informatie

SAKURA: On the Multi-hop Reasoning of Large Audio-Language Models Based on Speech and Audio Information

May 19, 2025
Auteurs: Chih-Kai Yang, Neo Ho, Yen-Ting Piao, Hung-yi Lee
cs.AI

Samenvatting

Grote audio-taalmodellen (LALMs) breiden de grote taalmodellen uit met multimodale begrip van spraak, audio, enz. Hoewel hun prestaties op spraak- en audiotaken uitgebreid zijn bestudeerd, blijven hun redeneervaardigheden onderbelicht. Met name hun multi-hop redeneren, het vermogen om meerdere feiten te herinneren en te integreren, ontbreekt systematische evaluatie. Bestaande benchmarks richten zich op algemene spraak- en audiotaken, conversatievaardigheden en eerlijkheid, maar negeren dit aspect. Om deze kloof te overbruggen, introduceren we SAKURA, een benchmark die het multi-hop redeneren van LALMs beoordeelt op basis van spraak- en audio-informatie. Resultaten tonen aan dat LALMs moeite hebben om spraak-/audio-representaties te integreren voor multi-hop redeneren, zelfs wanneer ze de relevante informatie correct extraheren, wat een fundamentele uitdaging in multimodaal redeneren blootlegt. Onze bevindingen onthullen een kritieke beperking in LALMs en bieden inzichten en bronnen voor toekomstig onderzoek.
English
Large audio-language models (LALMs) extend the large language models with multimodal understanding in speech, audio, etc. While their performances on speech and audio-processing tasks are extensively studied, their reasoning abilities remain underexplored. Particularly, their multi-hop reasoning, the ability to recall and integrate multiple facts, lacks systematic evaluation. Existing benchmarks focus on general speech and audio-processing tasks, conversational abilities, and fairness but overlook this aspect. To bridge this gap, we introduce SAKURA, a benchmark assessing LALMs' multi-hop reasoning based on speech and audio information. Results show that LALMs struggle to integrate speech/audio representations for multi-hop reasoning, even when they extract the relevant information correctly, highlighting a fundamental challenge in multimodal reasoning. Our findings expose a critical limitation in LALMs, offering insights and resources for future research.
PDF12May 23, 2025