ChatPaper.aiChatPaper

SAKURA: Sobre o Raciocínio Multi-hop em Grandes Modelos de Áudio-Linguagem Baseados em Informações de Fala e Áudio

SAKURA: On the Multi-hop Reasoning of Large Audio-Language Models Based on Speech and Audio Information

May 19, 2025
Autores: Chih-Kai Yang, Neo Ho, Yen-Ting Piao, Hung-yi Lee
cs.AI

Resumo

Grandes modelos de áudio-linguagem (LALMs) estendem os grandes modelos de linguagem com compreensão multimodal em fala, áudio, etc. Embora seus desempenhos em tarefas de processamento de fala e áudio sejam amplamente estudados, suas habilidades de raciocínio permanecem pouco exploradas. Particularmente, seu raciocínio multi-hop, a capacidade de recordar e integrar múltiplos fatos, carece de avaliação sistemática. Os benchmarks existentes focam em tarefas gerais de processamento de fala e áudio, habilidades conversacionais e justiça, mas negligenciam esse aspecto. Para preencher essa lacuna, introduzimos o SAKURA, um benchmark que avalia o raciocínio multi-hop dos LALMs com base em informações de fala e áudio. Os resultados mostram que os LALMs têm dificuldade em integrar representações de fala/áudio para raciocínio multi-hop, mesmo quando extraem as informações relevantes corretamente, destacando um desafio fundamental no raciocínio multimodal. Nossas descobertas expõem uma limitação crítica nos LALMs, oferecendo insights e recursos para pesquisas futuras.
English
Large audio-language models (LALMs) extend the large language models with multimodal understanding in speech, audio, etc. While their performances on speech and audio-processing tasks are extensively studied, their reasoning abilities remain underexplored. Particularly, their multi-hop reasoning, the ability to recall and integrate multiple facts, lacks systematic evaluation. Existing benchmarks focus on general speech and audio-processing tasks, conversational abilities, and fairness but overlook this aspect. To bridge this gap, we introduce SAKURA, a benchmark assessing LALMs' multi-hop reasoning based on speech and audio information. Results show that LALMs struggle to integrate speech/audio representations for multi-hop reasoning, even when they extract the relevant information correctly, highlighting a fundamental challenge in multimodal reasoning. Our findings expose a critical limitation in LALMs, offering insights and resources for future research.
PDF12December 14, 2025