ChatPaper.aiChatPaper

AuditoryBench++: Kunnen Taalmodellen Auditieve Kennis Begrijpen zonder te Luisteren?

AuditoryBench++: Can Language Models Understand Auditory Knowledge without Hearing?

September 22, 2025
Auteurs: Hyunjong Ok, Suho Yoo, Hyeonjun Kim, Jaeho Lee
cs.AI

Samenvatting

Zelfs zonder geluiden direct te horen, kunnen mensen moeiteloos redeneren over auditieve eigenschappen, zoals toonhoogte, luidheid of geluidsbronassociaties, door gebruik te maken van auditief gezond verstand. Daarentegen ontbreekt deze vaardigheid vaak bij taalmodelen, wat hun effectiviteit in multimodale interacties beperkt. Als eerste stap om deze kloof te overbruggen, presenteren we AuditoryBench++, een uitgebreide benchmark voor het evalueren van auditieve kennis en redenering in tekstgebaseerde omgevingen. De benchmark omvat taken die variëren van eenvoudige auditieve vergelijkingen tot contextueel onderbouwde redenering, waardoor een gedetailleerde analyse mogelijk is van hoe modellen auditieve concepten verwerken en integreren. Daarnaast introduceren we AIR-CoT, een nieuwe methode voor auditieve verbeelding en redenering die auditieve informatie genereert en integreert tijdens inferentie door middel van spandetectie met speciale tokens en kennisinjectie. Uitgebreide experimenten met recente LLM's en Multimodale LLM's tonen aan dat AIR-CoT over het algemeen beter presteert dan zowel standaardmodellen als modellen die zijn verrijkt met auditieve kennis. De projectpagina is beschikbaar op https://auditorybenchpp.github.io.
English
Even without directly hearing sounds, humans can effortlessly reason about auditory properties, such as pitch, loudness, or sound-source associations, drawing on auditory commonsense. In contrast, language models often lack this capability, limiting their effectiveness in multimodal interactions. As an initial step to address this gap, we present AuditoryBench++, a comprehensive benchmark for evaluating auditory knowledge and reasoning in text-only settings. The benchmark encompasses tasks that range from basic auditory comparisons to contextually grounded reasoning, enabling fine-grained analysis of how models process and integrate auditory concepts. In addition, we introduce AIR-CoT, a novel auditory imagination reasoning method that generates and integrates auditory information during inference through span detection with special tokens and knowledge injection. Extensive experiments with recent LLMs and Multimodal LLMs demonstrate that AIR-CoT generally outperforms both the off-the-shelf models and those augmented with auditory knowledge. The project page is available at https://auditorybenchpp.github.io.
PDF42September 23, 2025