SAKURA: О многошаговом рассуждении крупных аудио-языковых моделей на основе речевой и аудиоинформации
SAKURA: On the Multi-hop Reasoning of Large Audio-Language Models Based on Speech and Audio Information
May 19, 2025
Авторы: Chih-Kai Yang, Neo Ho, Yen-Ting Piao, Hung-yi Lee
cs.AI
Аннотация
Крупные аудио-языковые модели (LALMs) расширяют возможности крупных языковых моделей за счет мультимодального понимания речи, звука и других данных. Хотя их производительность в задачах обработки речи и звука тщательно изучена, их способности к рассуждению остаются недостаточно исследованными. В частности, их способность к многошаговому рассуждению, то есть умение вспоминать и интегрировать несколько фактов, не подвергалась систематической оценке. Существующие тестовые наборы данных сосредоточены на общих задачах обработки речи и звука, способностях к ведению диалога и вопросах справедливости, но упускают этот аспект. Чтобы восполнить этот пробел, мы представляем SAKURA — тестовый набор данных, оценивающий способность LALMs к многошаговому рассуждению на основе речевой и звуковой информации. Результаты показывают, что LALMs испытывают трудности с интеграцией речевых/звуковых представлений для многошагового рассуждения, даже когда они корректно извлекают релевантную информацию, что подчеркивает фундаментальную проблему в мультимодальном рассуждении. Наши выводы выявляют критическое ограничение в LALMs, предлагая новые идеи и ресурсы для будущих исследований.
English
Large audio-language models (LALMs) extend the large language models with
multimodal understanding in speech, audio, etc. While their performances on
speech and audio-processing tasks are extensively studied, their reasoning
abilities remain underexplored. Particularly, their multi-hop reasoning, the
ability to recall and integrate multiple facts, lacks systematic evaluation.
Existing benchmarks focus on general speech and audio-processing tasks,
conversational abilities, and fairness but overlook this aspect. To bridge this
gap, we introduce SAKURA, a benchmark assessing LALMs' multi-hop reasoning
based on speech and audio information. Results show that LALMs struggle to
integrate speech/audio representations for multi-hop reasoning, even when they
extract the relevant information correctly, highlighting a fundamental
challenge in multimodal reasoning. Our findings expose a critical limitation in
LALMs, offering insights and resources for future research.Summary
AI-Generated Summary