ChatPaper.aiChatPaper

SAKURA: Zum Multi-Hop-Reasoning großer Audio-Sprachmodelle basierend auf Sprach- und Audioinformationen

SAKURA: On the Multi-hop Reasoning of Large Audio-Language Models Based on Speech and Audio Information

May 19, 2025
Autoren: Chih-Kai Yang, Neo Ho, Yen-Ting Piao, Hung-yi Lee
cs.AI

Zusammenfassung

Große Audio-Sprachmodelle (LALMs) erweitern die großen Sprachmodelle um multimodales Verständnis in den Bereichen Sprache, Audio usw. Während ihre Leistungen bei Sprach- und Audioverarbeitungsaufgaben umfassend untersucht wurden, bleiben ihre Fähigkeiten zum logischen Schlussfolgern weitgehend unerforscht. Insbesondere ihr Multi-Hop-Reasoning, also die Fähigkeit, mehrere Fakten abzurufen und zu integrieren, wurde bisher nicht systematisch bewertet. Bestehende Benchmarks konzentrieren sich auf allgemeine Sprach- und Audioverarbeitungsaufgaben, Konversationsfähigkeiten und Fairness, vernachlässigen jedoch diesen Aspekt. Um diese Lücke zu schließen, stellen wir SAKURA vor, einen Benchmark, der das Multi-Hop-Reasoning von LALMs auf der Grundlage von Sprach- und Audioinformationen bewertet. Die Ergebnisse zeigen, dass LALMs Schwierigkeiten haben, Sprach-/Audio-Repräsentationen für Multi-Hop-Reasoning zu integrieren, selbst wenn sie die relevanten Informationen korrekt extrahieren. Dies verdeutlicht eine grundlegende Herausforderung im multimodalen Reasoning. Unsere Erkenntnisse offenbaren eine kritische Einschränkung in LALMs und bieten Einblicke sowie Ressourcen für zukünftige Forschung.
English
Large audio-language models (LALMs) extend the large language models with multimodal understanding in speech, audio, etc. While their performances on speech and audio-processing tasks are extensively studied, their reasoning abilities remain underexplored. Particularly, their multi-hop reasoning, the ability to recall and integrate multiple facts, lacks systematic evaluation. Existing benchmarks focus on general speech and audio-processing tasks, conversational abilities, and fairness but overlook this aspect. To bridge this gap, we introduce SAKURA, a benchmark assessing LALMs' multi-hop reasoning based on speech and audio information. Results show that LALMs struggle to integrate speech/audio representations for multi-hop reasoning, even when they extract the relevant information correctly, highlighting a fundamental challenge in multimodal reasoning. Our findings expose a critical limitation in LALMs, offering insights and resources for future research.

Summary

AI-Generated Summary

PDF02May 23, 2025